[강화학습] 팡요랩 1강 introduction

less than 1 minute read

Reward: scalar feedback signal. 보상은 지연될 수 있고, 장기적 보상을 위해서 즉각적 보상을 희생할 수도 있음

Reward Hypothesis: maximisation of expected cumulative reward 스칼라로 치환하기 어려운 문제는 강화학습으로 풀기 어려움

history = O1,R1,A1, …, At-1, Ot, Rt

Environment State

agent state

information state(Markov state): 이전 sate에만 영향을 받음

Fully obseravable Environments vs. partially OE

Policy(정책): Deterministic policy, Strochastic policy

결정론적인 정책에서도 기대값으로 정의됨- 환경이나 정책에도 확률이 포함될 수 있기 때문에

모델

환경이 어떻게 될지를 예측

1) reward 예측

2) agent transion 예측

RL agent 분류 (value function, policy, Model의 여부에 따라)

Learning and Planning

Learning: environment를 모름

Planning: environment를 알고 있음

Exploration & Exploration

Prediction: learn value function v*

Control: learn policy 파이*

Categories:

Updated: