Human Feedback 3

논문 | 2023년 7월 첫째 주 읽은 논문 정리

ㅎㅎ 6월을 건너뛰고 벌써 7월이라니.. Training Diffusion Models with Reinforcement Learning Diffusion model을 강화학습 관점에서 바라봄 reward-weighted likelihood 방식보다 효과적이라고 주장 Diffusion model은 likelihood를 maximize하도록 학습이 되는데, 실제로 디퓨전 모델 자체는 그런 용도로 쓰이지 않음. Diffusion model의 likelihood를 계산하는 것은 intractable -> 전체 denoising 과정에서의 likelihood 대신 denoising의 각 step에서의 정확한 likelihood를 이용 VLM 모델을 이용해서 사람의 feedback이 필요한 labeling을 대체..

📑 논문 2023.07.05

Policy Gradient에서 ChatGPT까지

REINFORCEMENT Trust Region Policy Optimization (TRPO) policy gradient 기법에서 step-sizing이 매우 중요하다. 왜냐하면, supervised learning에서는 그 다음 update 할 때 어느정도 보완할 수 있지만, 강화학습에서는 step이 너무 커서 policy가 이상하게 변하면 그 이상한 policy 아래에서 다음 batch를 수집하게 된다. (계속 반복됨) 그래서 이를 해결하기 위해 등장한 것이 [yellow]TRPO[/yellow] 이다. TRPO는 policy update가 너무 많이 되지 않도록 KL divergence를 penalty로 준다. 위의 수식을 constraint 대신에 penalty항을 추가해서 풀게 되면 아래와 ..

💡 공부 2023.04.29

논문 | Aligning Text-to-Image Models using Human Feedback

최근 chatGPT, GPT4가 공개되면서 human feedback이 굉장히 각광받고 있다. 오늘은 human feedback 논문 중 하나를 리뷰해보려고 한다. (글을 쓰고 있는 시점 기준으로 under review 상태라고 한다.) 일단, 이 논문은 text-to-image 모델들이 텍스트와 이미지가 잘 align 되어 있지 않다는 점을 꼬집으며 [yellow]Human Feedback[/yellow]을 이용해서 모델을 fine-tuning 하는 메소드를 제시한다. 위에서도 언급했듯이 human feedback을 이용해서 모델을 fine-tuning 한다. 크게 3가지 과정으로 구성되어 있다. 1. human feedback 수집 2. human labeled image-text dataset을 이..

📑 논문 2023.04.01