본문 바로가기

728x90
반응형

전체 글

(54)
[논문 리뷰] Video-of-Thought: Step-by-Step Video Reasoning from Perception to Cognition 이번 ICML 2024 oral paper로 선정된 "Video-of-Thought (VoT)" 논문에 대해서 간단하게 정리하고자 한다.Video 분야를 공부하고 있는 나로서, Chain-of-Thought (CoT)라는 기존 프레임워크를 비디오에 최초로 적용했다는 점이 인상 깊었는데, 기존 CoT 방법과 동일하게 접근하는 것은 당연히 어렵기 때문에 어떤 것을 차용해서 VoT라는 것을 제안했는 지 궁금했다. 논문을 간단하게 정리하면서 이러한 의문점들을 해결해보면 좋을 것 같다.Abstract" data-ke-type="html">HTML 삽입미리보기할 수 없는 소스현재 video understanding 분야에서 in-depth comprehension은 challenge2가지의 bottleneckfin..
HuggingFace 튜토리얼 HuggingFace란?AI community에서 가장 활발하게 사용하고 있는 오픈 소스 라이브러리를 의미합니다.많은 AI 개발자들이 이 곳에서 모델을 공유하고 데이터셋을 공유하고 있습니다.그에 따라 Huggingface를 이용하는 방법들도 굉장히 중요해졌는데요. 따라서, 오늘 간단하게 어떻게 사용할 수 있을 지에 대해서 작성해보고자 합니다.Model 사용법" data-ke-type="html">HTML 삽입미리보기할 수 없는 소스 HuggingFace에 접속하게 되면 다음과 같은 사이트를 볼 수 있습니다.우측 상단에 빨간 박스 쳐진 부분이 보이시나요 ?HuggingFace의 핵심적인 부분들을 저 곳에서 모두 살펴볼 수 있는데, 오늘은 model과 datasets에 대해서만 다루겠습니다.저기서 Model..
Scaling Instruction-Finetuned Language Models (FLAN 논문 리뷰) [논문 링크]https://arxiv.org/pdf/2210.11416 이번엔 instruction fine-tuning을 사용하여 FLAN이라는 모델을 만든 논문을 리뷰해보고자 한다. 개인적으로 이 논문을 읽었을 때는, GPT-2 논문 이후에 제시된 GPT-3 논문과 비슷한 느낌을 받았다.이전에 제시된 Flan에서 조금 더 scaling된 Flan을 제시한 것에서 그렇게 느꼈고, 그래서 또 한번 데이터의 중요성을 깨닫게 되었다. 키워드는 다음과 같으며 가볍게 참고하자. Keyword : Instruction Finetuning, Instruction Finetuning data  Pre-study" data-ke-type="html">HTML 삽입미리보기할 수 없는 소스I..
End-to-End Object Detection with Transformers (DETR 논문 리뷰) [논문 링크]https://arxiv.org/pdf/2005.12872 이번 논문은 DETR 논문이다. 앞서 CoOp에서 언급했듯이, 여기선 "Learnable Query"를 활용한 아이디어를 소개하고 있다. 랩실 인턴을 할 때, 사수님께서 Abstract / Introduction을 잘 작성한 논문 + 연구에 흥미를 가질 수 있게, 장점이 잘 돋보이도록 작성한 논문이므로 다시 읽어보면서 추후 논문 쓸 때 참고해볼만큼 좋은 논문이라고 하셔서 조금 더 집중해서 보게 되었다. 실제로 이 분야에 대해서 지식이 충분하지 않음에도 읽고 이해하는 데에는 큰 문제가 없었던 것 같다. 더 깊게 이해하는 데에는 어려웠겠지만 어떤 아이디어, 어떤 방법론인지 이해하는 데에는 충분한 정도? 키워드는 다음과 같으며 가..
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 논문 리뷰 [논문 링크]https://arxiv.org/pdf/2301.12597 BLIP 모델은 이제 Vision-Language Model에서 보편적으로 사용되고 있는 모델이 되었다. BLIP-1 논문도 있지만, 그 다음 버전 논문을 리뷰하는 이유는 이 논문 내용 안에 BLIP-1 내용도 포함되어 있기 때문이다.키워드는 다음과 같으며, 가볍게 참고만 하자. Keyword : BLIP-2 architecture, Training dataset, Self-Attention Masking in Q-Former, Overall Training loss (Stage 1 & 2)training dataset에서 어떤 점에 주목해야 하는지 ?전체 training loss에서 stage 2의 training loss는 무엇인..
Learning to Prompt for Vision-Language Models (CoOp 논문 리뷰) [논문 링크]https://arxiv.org/pdf/2109.01134 이번 논문은 Prompt learning과 관련된 논문을 리뷰하고자 한다."CoOp"라고 많이들 알고 있을텐데, prompt를 learnable paramter로 설정하여 class에 맞는 알맞은 prompt를 자동으로 학습할 수 있도록 만드는 것을 의미한다. 크게 어려운 내용은 없었던 것 같다.키워드는 읽는 데에 도움이 되는 정도로만 가볍게 참고하자.  Keyword: CoOp pipeline, learnable prompt vectors   Abstract" data-ke-type="html">HTML 삽입미리보기할 수 없는 소스CLIP과 같은 large pre-trained vision-language model은 다양한 dow..
Language Models are Few-Shot Learners (GPT-3 논문 리뷰) [논문 링크] https://arxiv.org/pdf/2005.14165.pdf 이번엔 GPT-3 논문에 대해서 리뷰 해보고자 한다. 이미 GPT라는 모델은 굉장히 유명해졌으며, 어떻게 보면 전 세계적으로 AI라는 분야를 널리 알린 논문이 아닐까 생각한다. GPT 논문 시리즈는 처음부터 하나씩 읽어보면 좋은데, GPT-3는 이전 논문들과 어떤 차이 점이 있는 지를 생각해보면서 읽어보면 좋다. 이 논문을 읽은 후기를 먼저 말씀 드리자면, 테크니컬한 접근보다 리소스를 키운 접근 방법으로 모델의 성능을 향상 시킨 것이 주된 내용인 것 같았다. 키워드는 가볍게 참고만 하자. Keyword: Zero-shot, One-shot, Few-shot learning HTML 삽입 미리보기할 수 없는 소스 NLP 모델이..
Learning Transferable Visual Models From Natural Language Supervision (CLIP 논문 리뷰) CLIP 모델을 제시한 논문으로 유명한 "Learning Transferable Visual Models From Natural Language Supervision" 논문을 읽어보고자 한다. 이미 예전에 읽었었고, 최근에는 다른 모델들도 많이 나오고 있지만 기본부터 하나씩 다시 다지자는 의미에서 리뷰한 내용들을 공유하고자 한다. Keyword는 가볍게 참고만 해보자! Keyword : CLIP architecture, CLIP training loss, CLIP training dataset [논문 링크] https://arxiv.org/pdf/2103.00020.pdf HTML 삽입 미리보기할 수 없는 소스 meta data : data 안에서 원하는 정보를 효율적으로 찾을 수 있도록, 구조화된 데이..

728x90
반응형