JUST CODE IT

  • 홈
  • 태그
  • 방명록

Value function 1

Lecture 2. 마르코프 결정 과정 (Markov Decision Process)

마르코프 성질 (Markov Property) 과거와 현재 상태가 주어졌을 때, 미래 상태의 조건부 확률분포가 과거 상태에 영향을 받지 않고 독립적으로 현재 상태로만 결정되는 것을 의미한다. $$\text{ A state }S_t \text{ is Markov}\text{ if and only if } P[S_{t+1} \mid S_{t} ] = P[S_{t+1} \mid S_{1}, S_{2}, ..., S_{t}] $$ 마르코프 과정 (Markov Process, Markov Chain) 마르코프 과정은 Memoryless한 특징을 가지는 Random Process이다. 즉, 마르코프 성질을 띄며 상태가 무작위적으로 변하는 과정을 가진다는 의미이다. $$\text{ A Markov Process (o..

강화학습(Reinforcement Learning)/David Silver 강화학습 강의 2020.06.17
이전
1
다음
더보기
프로필사진

JUST CODE IT

  • 분류 전체보기 (11)
    • 강화학습(Reinforcement Learning.. (3)
      • 파이썬과 케라스로 배우는 강화학습 (1)
      • David Silver 강화학습 강의 (2)
    • 선형대수학(Linear Algebra) (3)
      • Gilbert Strang 선형대수학 강의 (3)
    • NLP (4)
      • 이론 및 정리 (3)
      • 구현 (1)
      • 논문 (0)
    • 프로그래밍 (1)

Tag

네이버 리뷰, David Silver, 강화학습, reinforcement, column picture, NSMC, gilbert strang, 품사 태깅, 단어 토큰화, linear algebra, 자연어 처리, gilbert, Linear, NLP 구현, algebra, 자연어 처리 실습, 신경망 학습, pytorch, nlp, count vectorization,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/04   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바