노바깅 로그

  • It's Me!
  • Github

llava 1

[NeurIPS 2023] Visual Instruction Tuning

Abstract machine-generated instruction-following data를 이용해서 LLM을 isntruction tuning하는 방법은 새로운 작업에 대한 zero-shot 능력을 향상시키는 것으로 입증되었지만, multimodal 분야에서는 덜 연구되었다.  본 논문에서는 language only GPT-4를 사용해서 처음으로 mulltimodal language-image instruction-following data를 생성했다. 그렇게 생성된 데이터를 이용해 instruction tuning을 함으로써 비전 인코더와 LLM을 연결하여 일반적인 시각 및 언어 이해를 위해 end-to-end로 훈련된 large multimodal model인 LLaVA: Large Langu..

📑 논문 2025.03.23
이전
1
다음
더보기
프로필사진

노바깅 로그

공부를 하자!

  • 글 목록 (35)
    • 📑 논문 (14)
    • 💡 공부 (1)
    • 🖥️ 컴퓨터 싸이언스 (10)
    • 🍑 잡지식 (10)

Tag

git, 컴퓨터비전, 멀티모달, CV, WACV, Scene Graph Generation, Human Feedback, paper, 파이썬, Domain Generalization, C, SGG, tip, til, Multimodal, 논문, Computer Vision, 2023, 포인터, TWIR,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

방문자수Total

  • Today :
  • Yesterday :
Github Google Scholar

티스토리툴바