강화학습의 기초

less than 1 minute read

LEC1

환경과의 상호작용 강화학습이 필요한 영역인지 생각해봐야 함(명확한 해결방법이 있으면 강화학습 사용하지 않아도 됨) Major Components of an RL Agent -Policy -Value function -Model

종류: value based, Policy based, Actor Critic, Model Free, Model based Exploration and Exploitation

3 approaches: Trial-error, Optimal control, Temporal-difference

LEC2

ML이 최종적으로 나아가야할 방향? 인간의 학습과정과 가장 유사 확실히 environment와 agent가 상호작용할 수 있는 상황에서 사용 학습과정에서 데이터를 만들어나가야 하는 경우

Markov Decision Process

Reward design이 상황에 따라 다름(-가 될 수도) Markov property: 가장 최근 상황만 영향을 미침 대부분의 문제를 markov로 풀 수 있음. 풀 수 없는 것도 근사해서 이용

Markov Reward Proceess

<S, P, R, r>

  • S is a set of states
  • P is a state transition probability matrix
  • R is a reward function
  • r is a discount factor

출처: https://www.youtube.com/watch?v=D1Qr2Hx7-D4&list=PLKs7xpqpX1beJ5-EOFDXTVckBQFFyTxUH&index=1

Categories:

Updated: