📑 논문

논문 | 2023년 5월 첫째 주 읽은 논문 간단 요약

노바깅 2023. 5. 8. 02:02

Style Neophile: Constantly Seeking Novel Styles for Domain Generalization

 

  • 계속해서 새로운 스타일을 만들어서 학습함.
  • "CNN에 새로운 style의 이미지를 계속해서 보내자!" 가 목표
  • 이를 위해서 [yellow]queue[/yellow]를 이용하는데, source style queues와 novel style queues를 사용함.
    • source style queues에는 모델이 관측한 style을 저장하고,
    • novel style queues에는 새로운 style을 저장함. (모델이 관측한 style과도 달라야하고, 이전에 생성한 novel style과도 달라야함.)
  • Prototype selection.
    • set of source style $S$ 중에서 MMD와 kernel function을 이용해서 prototype을 선택함.
      • $J_b(P)$를 최대화 하는 prototype $P$를 택함.
      • 해당 수식은 monotonuc submodular 이기 때문에 greedy하게 선택해도 near optimal!
    • 선택된 prototype을 source style queues에 저장

  • Novel style selection.
    • source style에 noise를 추가해서 novel style candidates를 생성하고
    • $L(C) + r(C)$를 최대화하는 novel style을 선택함.
      • $D$는 novel style candidates 집합, $P^{\prime}$은 $P \cup V$ ($V$는 이전에 생성된 novel style 집합을 의미함.)
      • 마찬 가지로 해당 수식은 monotonic submodular 이기 때문에 greedy하게 선택해도 괜찮음.
      • 다양성을 위해 $r(C)$ 항 추가
      • $g(x)$에서 첫번째 항은 novel style candidates와의 유사도를, 두번째 항은 observed style과의 유사도를 의미함.
    • 선택된 novel style은 nove style queues에 저장

 

Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image Generation

  • 사람의 선호도가 반영된 데이터셋을 공개했으며 추가로 다른 score 보다 PickScore를 사용할 것을 주장함.
  • 데이터셋을 구축하기 위해 Pick-a-Pic 웹앱을 만들었고, 사람이 prompt를 입력하면 2개의 그림이 생성되고, 두 개 중 하나를 택하도록 함.
  • 데이터의 퀄리티를 위해서 여러가지 제한을 둠. (인증된 계정, 모니터링 등)
  • 특히, 데이터셋의 장점으로 다른 데이터셋과 달리 실제 유저들이 선택한 것! (annotator들이 아닌)
    • MSCOCO의 prompt는 사진과 그에 해당하는 캡셔닝인데, Pick-a-Pic 데이터셋은 사람들이 입력하고 선택한 것이기 때문에 Pick-a-Pic 데이터셋의 prompt는 text-to-image의 목적 및 의도 (가상 이미지)와 더 일치하는 분포를 가지고 있음.
  • 데이터셋의 각 데이터는 (prompt, two generated images, 선호된 label or tie)
  • PickScore 제시
    • $x$, $y$는 각각 prompt와 image를 의미하고, $T$는 temperature
    • $s(x, y)$는 prompt와 image각각을 transformer text encoder, transformer image encoder에 태운 뒤 내적하고 $T$를 곱해준 것을 의미.
    • $p$는 선호 분포를 의미하고 $s(x, y)$를 softmax-normalized 한 것이 $\hat{p}$이 된다.
    • $L_{pref}$는 $p$와 $\hat{p}$ 사이의 KL-divergence를 최소화 하도록 함.
    • 추가적으로 이미지가 적은 prompt에 대한 overfitting을 방지하기 위해서 weighte average를 적용함. (InstructGPT에서와 마찬가지로, prompt frequency의 inverse proportion)

  • 다양한 실험들을 진행했음.
    • 사람의 선호도와 FID의 correlation 값이 음수인 것에 반해, PickScore와는 양수의 correltation 값을 가짐.
    • Elo rating (상대평가)도 마찬가지
    • PickScore를 기준으로 선택한 이미지와 다른 평가 점수를 기준으로 선택한 이미지를 제시하고 선호도를 평가받았을 때 PickScore를 기준으로 선택한 이미지가 더 선호됨

 


 

[1] Kang, Juwon, et al. "Style neophile: Constantly seeking novel styles for domain generalization." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

[2] Kirstain, Yuval, et al. "Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image Generation." arXiv preprint arXiv:2305.01569 (2023).