본문 바로가기

728x90
반응형

분류 전체보기

(52)
Scaling Instruction-Finetuned Language Models (FLAN 논문 리뷰) [논문 링크]https://arxiv.org/pdf/2210.11416 이번엔 instruction fine-tuning을 사용하여 FLAN이라는 모델을 만든 논문을 리뷰해보고자 한다. 개인적으로 이 논문을 읽었을 때는, GPT-2 논문 이후에 제시된 GPT-3 논문과 비슷한 느낌을 받았다.이전에 제시된 Flan에서 조금 더 scaling된 Flan을 제시한 것에서 그렇게 느꼈고, 그래서 또 한번 데이터의 중요성을 깨닫게 되었다. 키워드는 다음과 같으며 가볍게 참고하자. Keyword : Instruction Finetuning, Instruction Finetuning data  Pre-study" data-ke-type="html">HTML 삽입미리보기할 수 없는 소스I..
End-to-End Object Detection with Transformers (DETR 논문 리뷰) [논문 링크]https://arxiv.org/pdf/2005.12872 이번 논문은 DETR 논문이다. 앞서 CoOp에서 언급했듯이, 여기선 "Learnable Query"를 활용한 아이디어를 소개하고 있다. 랩실 인턴을 할 때, 사수님께서 Abstract / Introduction을 잘 작성한 논문 + 연구에 흥미를 가질 수 있게, 장점이 잘 돋보이도록 작성한 논문이므로 다시 읽어보면서 추후 논문 쓸 때 참고해볼만큼 좋은 논문이라고 하셔서 조금 더 집중해서 보게 되었다. 실제로 이 분야에 대해서 지식이 충분하지 않음에도 읽고 이해하는 데에는 큰 문제가 없었던 것 같다. 더 깊게 이해하는 데에는 어려웠겠지만 어떤 아이디어, 어떤 방법론인지 이해하는 데에는 충분한 정도? 키워드는 다음과 같으며 가..
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 논문 리뷰 [논문 링크]https://arxiv.org/pdf/2301.12597 BLIP 모델은 이제 Vision-Language Model에서 보편적으로 사용되고 있는 모델이 되었다. BLIP-1 논문도 있지만, 그 다음 버전 논문을 리뷰하는 이유는 이 논문 내용 안에 BLIP-1 내용도 포함되어 있기 때문이다.키워드는 다음과 같으며, 가볍게 참고만 하자. Keyword : BLIP-2 architecture, Training dataset, Self-Attention Masking in Q-Former, Overall Training loss (Stage 1 & 2)training dataset에서 어떤 점에 주목해야 하는지 ?전체 training loss에서 stage 2의 training loss는 무엇인..
Learning to Prompt for Vision-Language Models (CoOp 논문 리뷰) [논문 링크]https://arxiv.org/pdf/2109.01134 이번 논문은 Prompt learning과 관련된 논문을 리뷰하고자 한다."CoOp"라고 많이들 알고 있을텐데, prompt를 learnable paramter로 설정하여 class에 맞는 알맞은 prompt를 자동으로 학습할 수 있도록 만드는 것을 의미한다. 크게 어려운 내용은 없었던 것 같다.키워드는 읽는 데에 도움이 되는 정도로만 가볍게 참고하자.  Keyword: CoOp pipeline, learnable prompt vectors   Abstract" data-ke-type="html">HTML 삽입미리보기할 수 없는 소스CLIP과 같은 large pre-trained vision-language model은 다양한 dow..
Language Models are Few-Shot Learners (GPT-3 논문 리뷰) [논문 링크] https://arxiv.org/pdf/2005.14165.pdf 이번엔 GPT-3 논문에 대해서 리뷰 해보고자 한다. 이미 GPT라는 모델은 굉장히 유명해졌으며, 어떻게 보면 전 세계적으로 AI라는 분야를 널리 알린 논문이 아닐까 생각한다. GPT 논문 시리즈는 처음부터 하나씩 읽어보면 좋은데, GPT-3는 이전 논문들과 어떤 차이 점이 있는 지를 생각해보면서 읽어보면 좋다. 이 논문을 읽은 후기를 먼저 말씀 드리자면, 테크니컬한 접근보다 리소스를 키운 접근 방법으로 모델의 성능을 향상 시킨 것이 주된 내용인 것 같았다. 키워드는 가볍게 참고만 하자. Keyword: Zero-shot, One-shot, Few-shot learning HTML 삽입 미리보기할 수 없는 소스 NLP 모델이..
Learning Transferable Visual Models From Natural Language Supervision (CLIP 논문 리뷰) CLIP 모델을 제시한 논문으로 유명한 "Learning Transferable Visual Models From Natural Language Supervision" 논문을 읽어보고자 한다. 이미 예전에 읽었었고, 최근에는 다른 모델들도 많이 나오고 있지만 기본부터 하나씩 다시 다지자는 의미에서 리뷰한 내용들을 공유하고자 한다. Keyword는 가볍게 참고만 해보자! Keyword : CLIP architecture, CLIP training loss, CLIP training dataset [논문 링크] https://arxiv.org/pdf/2103.00020.pdf HTML 삽입 미리보기할 수 없는 소스 meta data : data 안에서 원하는 정보를 효율적으로 찾을 수 있도록, 구조화된 데이..
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 논문 리뷰 이번엔 Chian-of-thought로 유명한 논문을 읽게 되었다. 최근, LLM 모델 자체에 대한 modification보다 이미 많은 양의 데이터로 학습된 LLM을 어떻게 잘 활용할 것인가?라는 주제가 굉장히 중요해진 것 같다. prompt engineering이라는 연구 분야가 등장한 것만 봐도 그렇다. 이번 논문은 CoT로 자주 줄여서 말하는 prompting 방식을 다루고자 한다. 쉽게 말하면, 우리가 수학 문제를 풀 때, 풀이를 하나씩 적어나가는 그 과정을 LLM에게 제시해 주는 것에 대한 주제로 쓰여진 논문이다. 한번 살펴보자. [논문 링크] https://proceedings.neurips.cc/paper_files/paper/2022/file/9d5609613524ecf4f15af0f7b..
BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing 논문 리뷰 공통 스터디를 위해서 읽은 논문들을 가볍게 정리하고자 한다. 이번에는 BLIP diffusion model이며, CLIP-diffusion을 이어 BLIP 모델을 활용한 버전인 것 같다. 아직 BLIP에 대한 논문을 자세하게 읽어보지 않아서, 추후 BLIP 논문도 리뷰해볼 예정이다. [논문 링크] https://arxiv.org/pdf/2305.14720.pdf HTML 삽입 미리보기할 수 없는 소스 그래도 가볍게 알아보고 넘어가면 좋을 것 같아서 정리해보았다. BLIP-2 : Vision-language interaction을 위한 deep learning model image와 text간의 상호작용을 이해하고, 이를 바탕으로 vision-language task 수행 multimodal 모델이며 la..

728x90
반응형