강화학습의 기초

less than 1 minute read

LEC1

환경과의 상호작용 강화학습이 필요한 영역인지 생각해봐야 함(명확한 해결방법이 있으면 강화학습 사용하지 않아도 됨) Major Components of an RL Agent -Policy -Value function -Model

종류: value based, Policy based, Actor Critic, Model Free, Model based Exploration and Exploitation

3 approaches: Trial-error, Optimal control, Temporal-difference

ML이 최종적으로 나아가야할 방향? 인간의 학습과정과 가장 유사 확실히 environment와 agent가 상호작용할 수 있는 상황에서 사용 학습과정에서 데이터를 만들어나가야 하는 경우

Reward design이 상황에 따라 다름(-가 될 수도) Markov property: 가장 최근 상황만 영향을 미침 대부분의 문제를 markov로 풀 수 있음. 풀 수 없는 것도 근사해서 이용

<S, P, R, r>

출처: https://www.youtube.com/watch?v=D1Qr2Hx7-D4&list=PLKs7xpqpX1beJ5-EOFDXTVckBQFFyTxUH&index=1