컴퓨터비전 10

논문 | 2023년 7월~8월 읽은 논문 정리

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation 적은 양의 이미지 (5장-6장) 를 가지고 모델을 파인튜닝해서 개인을 위한 Text-to-Image Diffusion Model을 만들 수 있다! 'sks'와 같은 vocab에 없을 것 같은 특이한 단어 (identifier)를 객체 앞에 넣어서 같이 학습한다. (위의 사진에서 "A [V] dog" 부분의 [V]가 결국 identifier 같은 느낌 Prior도 학습해서 원래 개의 특성도 학습하면서 [V] dog 이라는 특정 개만의 특성도 학습 FABRIC: Personalizing Diffusion Models with Iterative Feedback..

📑 논문 2023.09.01

논문 | 2023년 7월 첫째 주 읽은 논문 정리

ㅎㅎ 6월을 건너뛰고 벌써 7월이라니.. Training Diffusion Models with Reinforcement Learning Diffusion model을 강화학습 관점에서 바라봄 reward-weighted likelihood 방식보다 효과적이라고 주장 Diffusion model은 likelihood를 maximize하도록 학습이 되는데, 실제로 디퓨전 모델 자체는 그런 용도로 쓰이지 않음. Diffusion model의 likelihood를 계산하는 것은 intractable -> 전체 denoising 과정에서의 likelihood 대신 denoising의 각 step에서의 정확한 likelihood를 이용 VLM 모델을 이용해서 사람의 feedback이 필요한 labeling을 대체..

📑 논문 2023.07.05

논문 | 2023년 5월 둘째 주 읽은 논문 간단 정리

The Wisdom of Hindsight Makes Language Models Better Instruction Followers 이 논문에서의 핵심은 instruction alignment와 goal-reaching RL을 연결했다는 것과 relabeling을 통해 데이터를 더 활용하는 것 두 가지인 것 같음. 기존 HFRL은 데이터셋 구축하기 힘들고 (사람으로부터 라벨을 받아야하니까), 학습도 어려움. (PPO 같은 알고리즘 튜닝하기도 어렵고, RL이 대체로 복잡함.) => 그래서 간단한 two-stage algorithm "HER"을 제시 instruction alignment와 goal-reaching RL을 연결 instruction이나 task specification을 task로 lang..

📑 논문 2023.05.15

논문 | 2023년 5월 첫째 주 읽은 논문 간단 요약

Style Neophile: Constantly Seeking Novel Styles for Domain Generalization 계속해서 새로운 스타일을 만들어서 학습함. "CNN에 새로운 style의 이미지를 계속해서 보내자!" 가 목표 이를 위해서 [yellow]queue[/yellow]를 이용하는데, source style queues와 novel style queues를 사용함. source style queues에는 모델이 관측한 style을 저장하고, novel style queues에는 새로운 style을 저장함. (모델이 관측한 style과도 달라야하고, 이전에 생성한 novel style과도 달라야함.) Prototype selection. set of source style $S$ ..

📑 논문 2023.05.08

논문 | 2023년 4월 넷째 주 읽은 논문들 간단 요약

S-Prompts Learning with Pre-trained Transformers: An Occam’s Razor for Domain Incremental Learning exemplar-free domain incremental learning 컨셉 자체는 엄청 확실하고 단순한 듯 함 보통 대부분의 continual learning은 catastrophic forgetting을 방지 하기 위해서 exemplar를 두고 이전 세션의 정보를 저장해둬서 활용함. 또는 prompt를 사용한 다른 방법들은 계속해서 prompt들을 sharing하고 있음 => 결국 이건 tug-of-war 즉, zero-sum 게임이라고 함. 새로운 정보를 같은 feature space상에 계속해서 쌓으니까 이게 섞이고 결..

📑 논문 2023.04.18

논문 | 2023년 4월 셋째 주 읽은 논문들 간단 요약

Using Language to Extend to Unseen Domains data augmentation 관련 논문 모든 domain에 대해서 데이터를 수집하는건 사실상 불가능하니까, [yellow]verbalizing[/yellow] task와 관련된 정보는 유지하되 training domain에서 각 unseen test domain으로 이미지 임베딩 (latent)을 변환하는 과정을 학습 (pixel이 아니라!) -> 이미지 자체를 직접 augmentation 하는게 아니라 latent space 상에서의 augmentation augmentation을 학습한 후, 단순한 linear classifier를 학습 데이터 augmentation 하고 fine-tuning하는 느낌 unseen tes..

📑 논문 2023.04.17

논문 | Improving Predicate Representation in Scene Graph Generation by Self-Supervised Learning (WACV 2023)

어쩌다 보니 WACV 2023 연속으로 2편 정리를 하게 됐당.. 그것도 SGG 논문.. 컨셉 일반적으로 SGG에서 사용하는 데이터셋 (Visual Genome, Open Image 등) 은 매우 imbalnce하다. 따라서 데이터셋 내에서 자주 등장하는 class (head에 속하는 class) 를 위주로 학습하다보니, 데이터셋 내에서 등장하는 빈도가 적은 predicate class (tail에 속하는 class)는 잘 예측하지 못 한다. 하지만, 보통 head에 속하는 것들 (ex, on) 은 정보가 많이 없고 tail에 속하는 것들 (ex, standing on) 이 상대적으로 더 많은 정보를 가지고 있다. 이를 해결하기 위해서 많은 기법들이 등장했지만 대부분 tail에 속하는 class에 집중하..

📑 논문 2023.01.30

논문 | Composite Relationship Fields with Transformers for Scene Graph Generation (WACV 2023)

컨셉  SGG task를 위한 네트워크에는 크게 2가지 방식이 있다. object detector를 기반으로 feature를 추출하는 top-down 방식과 object들과 그 사이의 relation을 동시에 탐지하는 bottom-up 방식이 존재한다. (내 생각엔, top-down 방식이 two-stage, bottom-up 방식이 one-stage인 것 같다.)  SGG task는 보통 VQA, Image Captioning과 같은 다른 task를 위한 수단으로 많이 활용된다. 하지만 기존의 top-down 방식은 OD을 먼저 진행해야 하고, OD로 detection된 객체들 사이의 relation을 예측해야하기 때문에 (오브젝트가 N개 존재한다면, N(N-1) 개의 경우를 고려해야함) inferen..

📑 논문 2023.01.16

논문 | Vision GNN: An Image is Worth Graph of Nodes (NeurIPS 2022)

컨셉컴퓨터 비전 분야에서 이미지를 이해하기 위해 다양한 네트워크가 등장했다. 특히, CNN과 Transformer 구조가 이미지를 이해하기 위해 다양하게 사용되고 있다. CNN은 이미지를 grid 구조로, Transformer는 이미지를 순차적인 구조로 표현한다. 하지만 본 논문에서 이러한 구조는 복잡한 오브젝트를 파악하기에 적합하지 않다고 하며 그래프 구조를 제안한다. 이미지를 그래프로 바라보자! 이런 느낌이다. 예를 들어, object detection task를 생각해보자. 물고기는 꼬리, 지느러미, 머리 등 여러 부분으로 나눌 수 있는데 각 부분은 서로 연결되어 있다. 그래프 구조를 이용한다면 이러한 연결 관계를 더 잘 활용할 수 있다는 장점이 있고 따라서 복잡한 object를 더 잘 표현할 수 ..

📑 논문 2023.01.15

논문 | Learning Visual Commonsense for Robust Scene Graph Generation (ECCV 2020)

Scene Graph Generation (SGG) task에 관한 논문이다. SGG를 간략하게 설명하자면, 이미지가 주어졌을 때 해당 이미지 안에 존재하는 다양한 관계를 그래프로 생성하는 태스크라고 설명할 수 있다. 보통 로 구성된다. 예를 들어 "사람이 컵을 들고 있는 이미지"가 존재한다면 이 이미지에서 이런 triplet (graph)를 만들어낼 수 있을 것이다. 컨셉 Learning Visual Commonsense for Robust Scene Graph Generation 논문은 제목에서 알 수 있듯이 "commonsense 즉, 일반적인 상식를 이용해서 SGG를 더 잘 하겠다!"는 논문이다. 위의 사진은 본 논문에서 제시한 모델이 어떤 일을 하는지 한 눈에 보여주는 이미지이다. 이미지의 위의..

📑 논문 2023.01.08