[강화학습] 팡요랩 1강 introduction
Reward: scalar feedback signal. 보상은 지연될 수 있고, 장기적 보상을 위해서 즉각적 보상을 희생할 수도 있음
Reward Hypothesis: maximisation of expected cumulative reward 스칼라로 치환하기 어려운 문제는 강화학습으로 풀기 어려움
history = O1,R1,A1, …, At-1, Ot, Rt
Environment State
agent state
information state(Markov state): 이전 sate에만 영향을 받음
Fully obseravable Environments vs. partially OE
Policy(정책): Deterministic policy, Strochastic policy
결정론적인 정책에서도 기대값으로 정의됨- 환경이나 정책에도 확률이 포함될 수 있기 때문에
모델
환경이 어떻게 될지를 예측
1) reward 예측
2) agent transion 예측