논문 | 2023년 5월 둘째 주 읽은 논문 간단 정리

📑 논문

논문 | 2023년 5월 둘째 주 읽은 논문 간단 정리

노바깅 2023. 5. 15. 00:28

The Wisdom of Hindsight Makes Language Models Better Instruction Followers

이 논문에서의 핵심은 instruction alignment와 goal-reaching RL을 연결했다는 것과 relabeling을 통해 데이터를 더 활용하는 것 두 가지인 것 같음.
기존 HFRL은 데이터셋 구축하기 힘들고 (사람으로부터 라벨을 받아야하니까), 학습도 어려움. (PPO 같은 알고리즘 튜닝하기도 어렵고, RL이 대체로 복잡함.) => 그래서 간단한 two-stage algorithm "HER"을 제시
instruction alignment와 goal-reaching RL을 연결
- instruction이나 task specification을 task로
- language model을 goal conditioned policy로
relabeling
- online sampling phase: generate a dataset (prompt (instruction) $p$, query $q$, model의 output $o$)
- offline learning learning: relabel
  - HIR에서 사용한 relabeling
    - reward model $R$ 을 가지고 ($p$, $q$, $o$)에 대해서 score를 매김
    - 그 다음, instruction generation function $\phi$ 을 가지고 수정된 instruction $p*$을 생성함.
    - 예를 들어, reward model이 특정 데이터에 대해서 training data 중 75%에 랭킹되어 있다고 점수를 주면 instruction generation function은 "give me an answer that ranks about 75% in training data" 와 같은 수정된 instruction $p*$을 만들어냄.
    - 그 다음 $p*$, $q$가 주어졌을 때 $o$를 ground truth로 모델을 학습시킬 수 있음. (standard seq2seq loss)
  - 본 논문에서 제시한 HER에서 사용한 relabeling은 위와 크게 다르지는 않지만, intermediate time steps 때 relabeling을 함.
    - i-th time step에서 input이 $q \cup \{e_0, ..., e_{i-1}\}$ 일 때, $p* = \phi(p, q, \{e_i, ..., e_L\}, R(p, q, \{e_i, ..., e_L\}))$
    - 새롭게 만들어진 instruction $p*$를 가지고 model은 새로운 input을 받게 됨.
    - $\mathcal{M}(p*, q, \{e_0, ..., e_{i-1}\})$의 결과가 $\{e_i, ..., e_L\}$ 과 매칭 되도록 학습됨.
위와 같은 내용($+\alpha$)을 통해서 더 쉽고 간단한 two-stage algorithm 제안

TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering

다양한 text-to-image 모델이 나오고 있지만 이를 정확히 평가할 평가 모델이 존재하지 않음. -> 발전을 위해서는 평가 기준이 필요하고, 어떤 부분이 취약한지 알아야 함. -> 그래서 등장한 TIFA
TIFA는 VQA 모델이 generated image에 대해서 적당히 답을 할 수 있는지를 체크함으로써 이미지의 faithfulness를 평가함.

TIFA는 아래 3가지로 구성되어 있음.
- Question-Answer Generation
  - text prompt $T$ 로부터, question-answer pairs $\{Q_i, C_i, A_i\}_{i=1}^N$을 생성함. $Q_i$는 question, $C_i$는 set of answer choices 그리고 $A_i \in C_i$는 gold answer
  - question-answer pair를 생성하는 과정은 아래와 같음.
    - 일단 text prompt $T$가 주어지면, GPT-3가 모든 elements $\{v_i\}_{i=1}^m$을 추출함. (각 element는 명사구, 동사, 형용사 등에 해당)
    - 그 다음, 각 element $v_i$에 대해서 classification을 진행함. (각 element가 동물인지 음식인지 수량인지 등)
    - 그 다음, 각 element $v_i$에 대해서 2개의 질문을 생성하는데
      - 하나는 "yes"라고 답할 수 있는 질문이어야 하고
      - 또 다른 하나는 $v_i$가 답이 되는 질문이어야 한다.
  - 위의 과정은 한 번의 GPT-3 inference로 생성됨!
- Question Filtering
  - 이 단계는 질문이 유효한 질문인지 확인하는 단계라고 생각하면 됨
  - UnifiedQA 모델을 이용해서 앞서 GPT-3로 만든 question-answer에 대해서 답을 하는데 $A_i^f = QA(T, Q_i)$는 free-form 답을 의미하고 $A_i^{mc}$는 multiple-choice 답을 의미함.
  - $A_i = A_i^{mc}$이고, $A_i^f와 A_i$ 사이의 word-level F1 score가 0.7보다 크면 질문을 유지함!
- VQA Models
  - 앞서 필터링된 질문에 대해서 VQA 모델을 이용해서 답을 하고, 정답을 기준으로 faithfulness를 계산함.
  - 만약, multiple-choice question에 대해서 학습하지 않은 모델이라면 일단 free-form answer을 decode하고 그 중 가장 비슷한 choice를 택함.