노바깅 로그

  • It's Me!
  • Github

TRPO 1

Policy Gradient에서 ChatGPT까지

REINFORCEMENT Trust Region Policy Optimization (TRPO) policy gradient 기법에서 step-sizing이 매우 중요하다. 왜냐하면, supervised learning에서는 그 다음 update 할 때 어느정도 보완할 수 있지만, 강화학습에서는 step이 너무 커서 policy가 이상하게 변하면 그 이상한 policy 아래에서 다음 batch를 수집하게 된다. (계속 반복됨) 그래서 이를 해결하기 위해 등장한 것이 [yellow]TRPO[/yellow] 이다. TRPO는 policy update가 너무 많이 되지 않도록 KL divergence를 penalty로 준다. 위의 수식을 constraint 대신에 penalty항을 추가해서 풀게 되면 아래와 ..

💡 공부 2023.04.29
이전
1
다음
프로필사진

노바깅 로그

공부를 하자!

  • 글 목록 (35)
    • 📑 논문 (14)
    • 💡 공부 (1)
    • 🖥️ 컴퓨터 싸이언스 (10)
    • 🍑 잡지식 (10)

Tag

2023, SGG, git, 파이썬, Human Feedback, tip, Computer Vision, 멀티모달, C, 포인터, TWIR, Scene Graph Generation, Domain Generalization, til, 논문, CV, 컴퓨터비전, Multimodal, WACV, paper,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

방문자수Total

  • Today :
  • Yesterday :
Github Google Scholar

티스토리툴바

개인정보

  • 티스토리 홈
  • 포럼
  • 로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.