강화학습이란? 에이전트(Agent)가 주어진 환경에서 행동함으로써 행동에 대한 결과물인 보상을 얻는다. 에이전트는 자신의 행동과 행동의 결과를 학습하면서 어떤 행동을 해야 좋은 결과를 얻게되는지 알게되고, 점점 받는 보상을 높게 하기 위한 행동을 하게된다. 강화학습의 목적 에이전트가 환경을 탐색하면서 얻는 보상들의 합을 최대화하는 최적의 행동양식, 또는 정책을 학습하는 것이다. 강화학습 vs 지도학습 지도학습에서는 직접적인 정답을 통해 오차를 계산해서 학습하지만, 강화학습에서는 자신의 행동의 결과로 나타나는 보상을 통해 학습한다. 에이전트(Agent) 강화학습 내에서 스스로 학습하는 컴퓨터를 에이전트(Agent) 라고 칭한다. 에이전트는 환경과 상호작용하여 최적의 결과를 학습해나간다. 강화학습 문제 강화..