Style Neophile: Constantly Seeking Novel Styles for Domain Generalization
- 계속해서 새로운 스타일을 만들어서 학습함.
- "CNN에 새로운 style의 이미지를 계속해서 보내자!" 가 목표
- 이를 위해서 [yellow]queue[/yellow]를 이용하는데, source style queues와 novel style queues를 사용함.
- source style queues에는 모델이 관측한 style을 저장하고,
- novel style queues에는 새로운 style을 저장함. (모델이 관측한 style과도 달라야하고, 이전에 생성한 novel style과도 달라야함.)
- Prototype selection.
- set of source style $S$ 중에서 MMD와 kernel function을 이용해서 prototype을 선택함.
- $J_b(P)$를 최대화 하는 prototype $P$를 택함.
- 해당 수식은 monotonuc submodular 이기 때문에 greedy하게 선택해도 near optimal!
- 선택된 prototype을 source style queues에 저장
- set of source style $S$ 중에서 MMD와 kernel function을 이용해서 prototype을 선택함.
- Novel style selection.
- source style에 noise를 추가해서 novel style candidates를 생성하고
- $L(C) + r(C)$를 최대화하는 novel style을 선택함.
- $D$는 novel style candidates 집합, $P^{\prime}$은 $P \cup V$ ($V$는 이전에 생성된 novel style 집합을 의미함.)
- 마찬 가지로 해당 수식은 monotonic submodular 이기 때문에 greedy하게 선택해도 괜찮음.
- 다양성을 위해 $r(C)$ 항 추가
- $g(x)$에서 첫번째 항은 novel style candidates와의 유사도를, 두번째 항은 observed style과의 유사도를 의미함.
- 선택된 novel style은 nove style queues에 저장
Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image Generation
- 사람의 선호도가 반영된 데이터셋을 공개했으며 추가로 다른 score 보다 PickScore를 사용할 것을 주장함.
- 데이터셋을 구축하기 위해 Pick-a-Pic 웹앱을 만들었고, 사람이 prompt를 입력하면 2개의 그림이 생성되고, 두 개 중 하나를 택하도록 함.
- 데이터의 퀄리티를 위해서 여러가지 제한을 둠. (인증된 계정, 모니터링 등)
- 특히, 데이터셋의 장점으로 다른 데이터셋과 달리 실제 유저들이 선택한 것! (annotator들이 아닌)
- MSCOCO의 prompt는 사진과 그에 해당하는 캡셔닝인데, Pick-a-Pic 데이터셋은 사람들이 입력하고 선택한 것이기 때문에 Pick-a-Pic 데이터셋의 prompt는 text-to-image의 목적 및 의도 (가상 이미지)와 더 일치하는 분포를 가지고 있음.
- 데이터셋의 각 데이터는 (prompt, two generated images, 선호된 label or tie)
- PickScore 제시
- $x$, $y$는 각각 prompt와 image를 의미하고, $T$는 temperature
- $s(x, y)$는 prompt와 image각각을 transformer text encoder, transformer image encoder에 태운 뒤 내적하고 $T$를 곱해준 것을 의미.
- $p$는 선호 분포를 의미하고 $s(x, y)$를 softmax-normalized 한 것이 $\hat{p}$이 된다.
- $L_{pref}$는 $p$와 $\hat{p}$ 사이의 KL-divergence를 최소화 하도록 함.
- 추가적으로 이미지가 적은 prompt에 대한 overfitting을 방지하기 위해서 weighte average를 적용함. (InstructGPT에서와 마찬가지로, prompt frequency의 inverse proportion)
- 다양한 실험들을 진행했음.
- 사람의 선호도와 FID의 correlation 값이 음수인 것에 반해, PickScore와는 양수의 correltation 값을 가짐.
- Elo rating (상대평가)도 마찬가지
- PickScore를 기준으로 선택한 이미지와 다른 평가 점수를 기준으로 선택한 이미지를 제시하고 선호도를 평가받았을 때 PickScore를 기준으로 선택한 이미지가 더 선호됨
[1] Kang, Juwon, et al. "Style neophile: Constantly seeking novel styles for domain generalization." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
[2] Kirstain, Yuval, et al. "Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image Generation." arXiv preprint arXiv:2305.01569 (2023).