강화학습(Reinforcement Learning)/David Silver 강화학습 강의 2

Lecture 2. 마르코프 결정 과정 (Markov Decision Process)

마르코프 성질 (Markov Property) 과거와 현재 상태가 주어졌을 때, 미래 상태의 조건부 확률분포가 과거 상태에 영향을 받지 않고 독립적으로 현재 상태로만 결정되는 것을 의미한다. $$\text{ A state }S_t \text{ is Markov}\text{ if and only if } P[S_{t+1} \mid S_{t} ] = P[S_{t+1} \mid S_{1}, S_{2}, ..., S_{t}] $$ 마르코프 과정 (Markov Process, Markov Chain) 마르코프 과정은 Memoryless한 특징을 가지는 Random Process이다. 즉, 마르코프 성질을 띄며 상태가 무작위적으로 변하는 과정을 가진다는 의미이다. $$\text{ A Markov Process (o..

Lecture 1. 강화학습 개요 (Introduction to Reinforcement Learning)

머신러닝(Machine Learning)의 종류 지도학습 (Supervised Learning) 비지도학습 (Unsupervised Learning) 강화학습 (Reinforcement Learning) 강화학습(Reinforcement Learning)만의 특이점 지도자(Superviser)가 존재하지 않고, 단지 보상(Reward)만 존재한다. 행동에 대한 피드백이 즉각적이지 않고, 지연될 수 있다. 시간(또는 스텝)이 매우 중요한 역할을 한다. (Sequential, i.i.d Data) i.i.d (independent identically distributed) 란 각각의 Random Variable들이 독립적이며 동일한 확률 분포를 가지는 것을 뜻한다. 에이전트의 행동이 이후에 받을 데이터에 ..