논문 14

논문 | Improving Predicate Representation in Scene Graph Generation by Self-Supervised Learning (WACV 2023)

어쩌다 보니 WACV 2023 연속으로 2편 정리를 하게 됐당.. 그것도 SGG 논문.. 컨셉 일반적으로 SGG에서 사용하는 데이터셋 (Visual Genome, Open Image 등) 은 매우 imbalnce하다. 따라서 데이터셋 내에서 자주 등장하는 class (head에 속하는 class) 를 위주로 학습하다보니, 데이터셋 내에서 등장하는 빈도가 적은 predicate class (tail에 속하는 class)는 잘 예측하지 못 한다. 하지만, 보통 head에 속하는 것들 (ex, on) 은 정보가 많이 없고 tail에 속하는 것들 (ex, standing on) 이 상대적으로 더 많은 정보를 가지고 있다. 이를 해결하기 위해서 많은 기법들이 등장했지만 대부분 tail에 속하는 class에 집중하..

📑 논문 2023.01.30

논문 | Composite Relationship Fields with Transformers for Scene Graph Generation (WACV 2023)

컨셉  SGG task를 위한 네트워크에는 크게 2가지 방식이 있다. object detector를 기반으로 feature를 추출하는 top-down 방식과 object들과 그 사이의 relation을 동시에 탐지하는 bottom-up 방식이 존재한다. (내 생각엔, top-down 방식이 two-stage, bottom-up 방식이 one-stage인 것 같다.)  SGG task는 보통 VQA, Image Captioning과 같은 다른 task를 위한 수단으로 많이 활용된다. 하지만 기존의 top-down 방식은 OD을 먼저 진행해야 하고, OD로 detection된 객체들 사이의 relation을 예측해야하기 때문에 (오브젝트가 N개 존재한다면, N(N-1) 개의 경우를 고려해야함) inferen..

📑 논문 2023.01.16

논문 | Vision GNN: An Image is Worth Graph of Nodes (NeurIPS 2022)

컨셉컴퓨터 비전 분야에서 이미지를 이해하기 위해 다양한 네트워크가 등장했다. 특히, CNN과 Transformer 구조가 이미지를 이해하기 위해 다양하게 사용되고 있다. CNN은 이미지를 grid 구조로, Transformer는 이미지를 순차적인 구조로 표현한다. 하지만 본 논문에서 이러한 구조는 복잡한 오브젝트를 파악하기에 적합하지 않다고 하며 그래프 구조를 제안한다. 이미지를 그래프로 바라보자! 이런 느낌이다. 예를 들어, object detection task를 생각해보자. 물고기는 꼬리, 지느러미, 머리 등 여러 부분으로 나눌 수 있는데 각 부분은 서로 연결되어 있다. 그래프 구조를 이용한다면 이러한 연결 관계를 더 잘 활용할 수 있다는 장점이 있고 따라서 복잡한 object를 더 잘 표현할 수 ..

📑 논문 2023.01.15

논문 | Learning Visual Commonsense for Robust Scene Graph Generation (ECCV 2020)

Scene Graph Generation (SGG) task에 관한 논문이다. SGG를 간략하게 설명하자면, 이미지가 주어졌을 때 해당 이미지 안에 존재하는 다양한 관계를 그래프로 생성하는 태스크라고 설명할 수 있다. 보통 로 구성된다. 예를 들어 "사람이 컵을 들고 있는 이미지"가 존재한다면 이 이미지에서 이런 triplet (graph)를 만들어낼 수 있을 것이다. 컨셉 Learning Visual Commonsense for Robust Scene Graph Generation 논문은 제목에서 알 수 있듯이 "commonsense 즉, 일반적인 상식를 이용해서 SGG를 더 잘 하겠다!"는 논문이다. 위의 사진은 본 논문에서 제시한 모델이 어떤 일을 하는지 한 눈에 보여주는 이미지이다. 이미지의 위의..

📑 논문 2023.01.08