강화학습 3

Lecture 2. 마르코프 결정 과정 (Markov Decision Process)

마르코프 성질 (Markov Property) 과거와 현재 상태가 주어졌을 때, 미래 상태의 조건부 확률분포가 과거 상태에 영향을 받지 않고 독립적으로 현재 상태로만 결정되는 것을 의미한다. $$\text{ A state }S_t \text{ is Markov}\text{ if and only if } P[S_{t+1} \mid S_{t} ] = P[S_{t+1} \mid S_{1}, S_{2}, ..., S_{t}] $$ 마르코프 과정 (Markov Process, Markov Chain) 마르코프 과정은 Memoryless한 특징을 가지는 Random Process이다. 즉, 마르코프 성질을 띄며 상태가 무작위적으로 변하는 과정을 가진다는 의미이다. $$\text{ A Markov Process (o..

Lecture 1. 강화학습 개요 (Introduction to Reinforcement Learning)

머신러닝(Machine Learning)의 종류 지도학습 (Supervised Learning) 비지도학습 (Unsupervised Learning) 강화학습 (Reinforcement Learning) 강화학습(Reinforcement Learning)만의 특이점 지도자(Superviser)가 존재하지 않고, 단지 보상(Reward)만 존재한다. 행동에 대한 피드백이 즉각적이지 않고, 지연될 수 있다. 시간(또는 스텝)이 매우 중요한 역할을 한다. (Sequential, i.i.d Data) i.i.d (independent identically distributed) 란 각각의 Random Variable들이 독립적이며 동일한 확률 분포를 가지는 것을 뜻한다. 에이전트의 행동이 이후에 받을 데이터에 ..

01. 강화학습의 개요

강화학습이란? 에이전트(Agent)가 주어진 환경에서 행동함으로써 행동에 대한 결과물인 보상을 얻는다. 에이전트는 자신의 행동과 행동의 결과를 학습하면서 어떤 행동을 해야 좋은 결과를 얻게되는지 알게되고, 점점 받는 보상을 높게 하기 위한 행동을 하게된다. 강화학습의 목적 에이전트가 환경을 탐색하면서 얻는 보상들의 합을 최대화하는 최적의 행동양식, 또는 정책을 학습하는 것이다. 강화학습 vs 지도학습 지도학습에서는 직접적인 정답을 통해 오차를 계산해서 학습하지만, 강화학습에서는 자신의 행동의 결과로 나타나는 보상을 통해 학습한다. 에이전트(Agent) 강화학습 내에서 스스로 학습하는 컴퓨터를 에이전트(Agent) 라고 칭한다. 에이전트는 환경과 상호작용하여 최적의 결과를 학습해나간다. 강화학습 문제 강화..