논문 14

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

Abstract Vision-and-language pre-training은 대규모 모델을 end-to-end로 학습시키는 방식 때문에 점점 더 비용이 많이 들고 있다. 이 논문에서는 BLIP-2라는 새로운 pre-traning 전략을 제시한다. BLIP-2는 미리 학습된 이미지 인코더와 llm을 frozen 시킨 채로 vision-language pre-training을 bootstrap 하는 방식이다. BLIP-2는 lightweight Querying Transformer를 사용하여 vision과 language 사이의 gap을 연결하며, 이 transformer는 두 단계로 pre-train 된다. 먼저 frozen 이미지 인코더를 활용해 vision-language representation l..

📑 논문 2025.04.06

[NeurIPS 2023] Visual Instruction Tuning

Abstract machine-generated instruction-following data를 이용해서 LLM을 isntruction tuning하는 방법은 새로운 작업에 대한 zero-shot 능력을 향상시키는 것으로 입증되었지만, multimodal 분야에서는 덜 연구되었다.  본 논문에서는 language only GPT-4를 사용해서 처음으로 mulltimodal language-image instruction-following data를 생성했다. 그렇게 생성된 데이터를 이용해 instruction tuning을 함으로써 비전 인코더와 LLM을 연결하여 일반적인 시각 및 언어 이해를 위해 end-to-end로 훈련된 large multimodal model인 LLaVA: Large Langu..

📑 논문 2025.03.23

Arxiv | 아카이빙을 해보자

아카이빙이란 것을 하게 되었다! 여기에서의 아카이빙은 arxiv.org에 업로드 하는 것을 의미하는데 이걸 처음해보니까 이것도 쉽지 않아서 정리라도 해보려고 한다.. 라이센스...? 일단 회원가입하고 arxiv에 submission을 하려고 하면 가장 먼저 라이센스 항목에서 이렇게 6가지 항목이 뜨는데 뭘 해야할지 막막하다.. 상업적 사용 허용 / 재사용자는 작성자에게 저작자 표시가 제공되는 한 모든 매체나 형식의 자료를 배포, 리믹스, 각색 및 구축할 수 있음 상업적 사용 허용 / 재사용자는 작성자에게 저작자 표시가 제공되는 한 모든 매체나 형식의 자료를 배포, 리믹스, 각색 및 구축할 수 있음. 해당 자료를 리믹스, 개조 또는 기반으로 제작하는 경우 동일한 조건에 따라 수정된 자료에 대한 라이센스를 ..

🍑 잡지식 2023.10.06

논문 | 2023년 7월~8월 읽은 논문 정리

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation 적은 양의 이미지 (5장-6장) 를 가지고 모델을 파인튜닝해서 개인을 위한 Text-to-Image Diffusion Model을 만들 수 있다! 'sks'와 같은 vocab에 없을 것 같은 특이한 단어 (identifier)를 객체 앞에 넣어서 같이 학습한다. (위의 사진에서 "A [V] dog" 부분의 [V]가 결국 identifier 같은 느낌 Prior도 학습해서 원래 개의 특성도 학습하면서 [V] dog 이라는 특정 개만의 특성도 학습 FABRIC: Personalizing Diffusion Models with Iterative Feedback..

📑 논문 2023.09.01

논문 | Reducing Domain Gap by Reducing Style Bias (SagNet)

오랜만에 읽은 논문ㅎㅎ.... 꾸준히 읽어야 하는데 논문 읽는 속도가 느리다보니 급한 일 생기면 그 일을 해결하느라 논문을 못 읽는 것 같다. 그래도 꾸준히 읽다보면 언젠간 논문 읽는 속도가 늘지 않을까....ㅎ... 컨셉 이번에 읽은 논문은 SagNet이라는 모델을 제시한 논문으로 AdaIN을 잘 활용한 논문이다. CNN에는 style에 대해 강한 bias가 존재하기 때문에 Domain Shift에 취약한데 content와 style을 분리해서 Domain Generalization 능력을 올리는 논문이다. content module과 style module을 두고, content와 style을 각각 학습하도록 하는 느낌 Style-Agnostic Networks 모델의 구조는 위와 같이 구성되어 있다..

📑 논문 2023.06.05

논문 | 2023년 5월 둘째 주 읽은 논문 간단 정리

The Wisdom of Hindsight Makes Language Models Better Instruction Followers 이 논문에서의 핵심은 instruction alignment와 goal-reaching RL을 연결했다는 것과 relabeling을 통해 데이터를 더 활용하는 것 두 가지인 것 같음. 기존 HFRL은 데이터셋 구축하기 힘들고 (사람으로부터 라벨을 받아야하니까), 학습도 어려움. (PPO 같은 알고리즘 튜닝하기도 어렵고, RL이 대체로 복잡함.) => 그래서 간단한 two-stage algorithm "HER"을 제시 instruction alignment와 goal-reaching RL을 연결 instruction이나 task specification을 task로 lang..

📑 논문 2023.05.15

논문 | 2023년 5월 첫째 주 읽은 논문 간단 요약

Style Neophile: Constantly Seeking Novel Styles for Domain Generalization 계속해서 새로운 스타일을 만들어서 학습함. "CNN에 새로운 style의 이미지를 계속해서 보내자!" 가 목표 이를 위해서 [yellow]queue[/yellow]를 이용하는데, source style queues와 novel style queues를 사용함. source style queues에는 모델이 관측한 style을 저장하고, novel style queues에는 새로운 style을 저장함. (모델이 관측한 style과도 달라야하고, 이전에 생성한 novel style과도 달라야함.) Prototype selection. set of source style $S$ ..

📑 논문 2023.05.08

논문 | 2023년 4월 넷째 주 읽은 논문들 간단 요약

S-Prompts Learning with Pre-trained Transformers: An Occam’s Razor for Domain Incremental Learning exemplar-free domain incremental learning 컨셉 자체는 엄청 확실하고 단순한 듯 함 보통 대부분의 continual learning은 catastrophic forgetting을 방지 하기 위해서 exemplar를 두고 이전 세션의 정보를 저장해둬서 활용함. 또는 prompt를 사용한 다른 방법들은 계속해서 prompt들을 sharing하고 있음 => 결국 이건 tug-of-war 즉, zero-sum 게임이라고 함. 새로운 정보를 같은 feature space상에 계속해서 쌓으니까 이게 섞이고 결..

📑 논문 2023.04.18

논문 | 2023년 4월 셋째 주 읽은 논문들 간단 요약

Using Language to Extend to Unseen Domains data augmentation 관련 논문 모든 domain에 대해서 데이터를 수집하는건 사실상 불가능하니까, [yellow]verbalizing[/yellow] task와 관련된 정보는 유지하되 training domain에서 각 unseen test domain으로 이미지 임베딩 (latent)을 변환하는 과정을 학습 (pixel이 아니라!) -> 이미지 자체를 직접 augmentation 하는게 아니라 latent space 상에서의 augmentation augmentation을 학습한 후, 단순한 linear classifier를 학습 데이터 augmentation 하고 fine-tuning하는 느낌 unseen tes..

📑 논문 2023.04.17

논문 | Aligning Text-to-Image Models using Human Feedback

최근 chatGPT, GPT4가 공개되면서 human feedback이 굉장히 각광받고 있다. 오늘은 human feedback 논문 중 하나를 리뷰해보려고 한다. (글을 쓰고 있는 시점 기준으로 under review 상태라고 한다.) 일단, 이 논문은 text-to-image 모델들이 텍스트와 이미지가 잘 align 되어 있지 않다는 점을 꼬집으며 [yellow]Human Feedback[/yellow]을 이용해서 모델을 fine-tuning 하는 메소드를 제시한다. 위에서도 언급했듯이 human feedback을 이용해서 모델을 fine-tuning 한다. 크게 3가지 과정으로 구성되어 있다. 1. human feedback 수집 2. human labeled image-text dataset을 이..

📑 논문 2023.04.01