2023 4

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

Abstract Vision-and-language pre-training은 대규모 모델을 end-to-end로 학습시키는 방식 때문에 점점 더 비용이 많이 들고 있다. 이 논문에서는 BLIP-2라는 새로운 pre-traning 전략을 제시한다. BLIP-2는 미리 학습된 이미지 인코더와 llm을 frozen 시킨 채로 vision-language pre-training을 bootstrap 하는 방식이다. BLIP-2는 lightweight Querying Transformer를 사용하여 vision과 language 사이의 gap을 연결하며, 이 transformer는 두 단계로 pre-train 된다. 먼저 frozen 이미지 인코더를 활용해 vision-language representation l..

📑 논문 2025.04.06

[NeurIPS 2023] Visual Instruction Tuning

Abstract machine-generated instruction-following data를 이용해서 LLM을 isntruction tuning하는 방법은 새로운 작업에 대한 zero-shot 능력을 향상시키는 것으로 입증되었지만, multimodal 분야에서는 덜 연구되었다.  본 논문에서는 language only GPT-4를 사용해서 처음으로 mulltimodal language-image instruction-following data를 생성했다. 그렇게 생성된 데이터를 이용해 instruction tuning을 함으로써 비전 인코더와 LLM을 연결하여 일반적인 시각 및 언어 이해를 위해 end-to-end로 훈련된 large multimodal model인 LLaVA: Large Langu..

📑 논문 2025.03.23

논문 | Improving Predicate Representation in Scene Graph Generation by Self-Supervised Learning (WACV 2023)

어쩌다 보니 WACV 2023 연속으로 2편 정리를 하게 됐당.. 그것도 SGG 논문.. 컨셉 일반적으로 SGG에서 사용하는 데이터셋 (Visual Genome, Open Image 등) 은 매우 imbalnce하다. 따라서 데이터셋 내에서 자주 등장하는 class (head에 속하는 class) 를 위주로 학습하다보니, 데이터셋 내에서 등장하는 빈도가 적은 predicate class (tail에 속하는 class)는 잘 예측하지 못 한다. 하지만, 보통 head에 속하는 것들 (ex, on) 은 정보가 많이 없고 tail에 속하는 것들 (ex, standing on) 이 상대적으로 더 많은 정보를 가지고 있다. 이를 해결하기 위해서 많은 기법들이 등장했지만 대부분 tail에 속하는 class에 집중하..

📑 논문 2023.01.30

논문 | Composite Relationship Fields with Transformers for Scene Graph Generation (WACV 2023)

컨셉  SGG task를 위한 네트워크에는 크게 2가지 방식이 있다. object detector를 기반으로 feature를 추출하는 top-down 방식과 object들과 그 사이의 relation을 동시에 탐지하는 bottom-up 방식이 존재한다. (내 생각엔, top-down 방식이 two-stage, bottom-up 방식이 one-stage인 것 같다.)  SGG task는 보통 VQA, Image Captioning과 같은 다른 task를 위한 수단으로 많이 활용된다. 하지만 기존의 top-down 방식은 OD을 먼저 진행해야 하고, OD로 detection된 객체들 사이의 relation을 예측해야하기 때문에 (오브젝트가 N개 존재한다면, N(N-1) 개의 경우를 고려해야함) inferen..

📑 논문 2023.01.16