강화학습의 기초
LEC1
환경과의 상호작용 강화학습이 필요한 영역인지 생각해봐야 함(명확한 해결방법이 있으면 강화학습 사용하지 않아도 됨) Major Components of an RL Agent -Policy -Value function -Model
종류: value based, Policy based, Actor Critic, Model Free, Model based Exploration and Exploitation
3 approaches: Trial-error, Optimal control, Temporal-difference
LEC2
ML이 최종적으로 나아가야할 방향? 인간의 학습과정과 가장 유사 확실히 environment와 agent가 상호작용할 수 있는 상황에서 사용 학습과정에서 데이터를 만들어나가야 하는 경우
Markov Decision Process
Reward design이 상황에 따라 다름(-가 될 수도) Markov property: 가장 최근 상황만 영향을 미침 대부분의 문제를 markov로 풀 수 있음. 풀 수 없는 것도 근사해서 이용
Markov Reward Proceess
<S, P, R, r>
- S is a set of states
- P is a state transition probability matrix
- R is a reward function
- r is a discount factor
출처: https://www.youtube.com/watch?v=D1Qr2Hx7-D4&list=PLKs7xpqpX1beJ5-EOFDXTVckBQFFyTxUH&index=1