노바깅 로그

  • It's Me!
  • Github

2022 1

논문 | Vision GNN: An Image is Worth Graph of Nodes (NeurIPS 2022)

컨셉컴퓨터 비전 분야에서 이미지를 이해하기 위해 다양한 네트워크가 등장했다. 특히, CNN과 Transformer 구조가 이미지를 이해하기 위해 다양하게 사용되고 있다. CNN은 이미지를 grid 구조로, Transformer는 이미지를 순차적인 구조로 표현한다. 하지만 본 논문에서 이러한 구조는 복잡한 오브젝트를 파악하기에 적합하지 않다고 하며 그래프 구조를 제안한다. 이미지를 그래프로 바라보자! 이런 느낌이다. 예를 들어, object detection task를 생각해보자. 물고기는 꼬리, 지느러미, 머리 등 여러 부분으로 나눌 수 있는데 각 부분은 서로 연결되어 있다. 그래프 구조를 이용한다면 이러한 연결 관계를 더 잘 활용할 수 있다는 장점이 있고 따라서 복잡한 object를 더 잘 표현할 수 ..

📑 논문 2023.01.15
이전
1
다음
더보기
프로필사진

노바깅 로그

공부를 하자!

  • 글 목록 (35)
    • 📑 논문 (14)
    • 💡 공부 (1)
    • 🖥️ 컴퓨터 싸이언스 (10)
    • 🍑 잡지식 (10)

Tag

멀티모달, 파이썬, Computer Vision, 논문, 컴퓨터비전, Domain Generalization, C, paper, WACV, Multimodal, git, til, Human Feedback, CV, tip, SGG, 포인터, Scene Graph Generation, 2023, TWIR,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

방문자수Total

  • Today :
  • Yesterday :
Github Google Scholar

티스토리툴바