목록AI/Reinforcement Learning (16)
정리노트
Deep Deterministic Policy Gradient는- DQN: https://arxiv.org/abs/1312.5602- Deterministic Policy Gradient https://proceedings.mlr.press/v32/silver14.html 두가지를 합친 알고리즘입니다. DDPG는 기존 DQN이 풀지못했던"연속적인 Action Space에 대한 Policy 최적화"를 Deterministic Policy Gradient 도입하여 효과적으로 해결하였으며, 2016 ICLR (International Conference on Learning Representations)에 "continuous control with deep reinforcement learning"ht..
https://roboharco12.tistory.com/62 단단한 강화학습 Chapter13_ 정책 경사도 방법(Policy Gradient Methods)지금까지 포스팅에서 다뤘던 내용은, Value Based 방식으로, 가치함수를 통해 Policy를 결정하는 것들이었습니다.이번 챕터내용은 가치함수 없이도 행동을 선택할 수 있는 파라미터 기반의 정책(정roboharco12.tistory.com에서 정의했던것 처럼, Policy Gradient의 목적함수는 Episodic Task상황에서아래와 같이initial state로 정의 합니다.Policy Gradient는 이 J(θ)를 Maximize하는것이 목표이며,이것을 그냥 심플하게 말로 풀어쓰면 임의의 Initial State S0에서 향후 받게될..
지금까지 포스팅에서 다뤘던 내용은, Value Based 방식으로, 가치함수를 통해 Policy를 결정하는 것들이었습니다.이번 챕터내용은 가치함수 없이도 행동을 선택할 수 있는 파라미터 기반의 정책(정책에대한 근사)을 학습하는 방법에 대해 다뤄보겠습니다. 앞서 가치함수 근사에서는 w라는 Notation으로 실제 Value값과 일치하게 근사하도록 J(w)에 대한 Gradient Descent를 수행했다면, 이번 Policy Gradient에서는 Policy에대한 목적함수 J(θ)를 최대화하는 Gradient Ascent를 수행합니다. Value Function와 Policy에 대해 동시에 학습하는 것을 Actor-Critic이라고 합니다.이번 포스팅에서는 Actor Critic 모델로 넘어가기전, Pol..
이제 책의 1부에서는 Tabular 형식의 알고리즘을 다루었습니다. 이는 상태(State)와 행동(Action)에 대한 정의가 이산적인 표 형태라는 것을 의미합니다. 당연하게도 이러한 Tabular 형식은 한계가 있습니다. 가장 치명적인 단점은 행동 공간이나 상태 공간의 크기가 매우 크거나 무한한 경우(Contious한 Value일 경우), 학습이 불가능해진다는 점입니다. 2부에서 다루는 알고리즘은 이러한 문제를 함수 근사(Function Approximation)를 통해 해결하게 됩니다. 조금 더 구체적으로 말하면, GPI(Generalized Policy Iteration)에서 다루는 Value Function과 Policy에 대해 각각 함수 근사를 적용함으로써 연속적인 상황에서도 문제없이 가치와 행..
시간차 학습(Temporal Difference Learning, TD Learning)은 강화학습에서 가장 핵심이 되는 개념 중 하나로, 몬테카를로(Monte Carlo) 방법과 동적 계획법(Dynamic Programming, DP)을 결합한 알고리즘입니다. TD 방법은 몬테카를로 방법처럼 환경의 동역학 모델 없이 데이터 샘플들로부터 직접 학습을 수행할 수 있습니다. 또한, 종단 상태(Terminal State)에 도달하지 않아도 다른 학습된 추정치를 기반으로 추정치를 업데이트할 수 있습니다(이를 부트스트랩이라고 합니다). 정책 평가(Policy Evaluation)와 정책 개선(Policy Improvement) 과정을 번갈아 진행하는 제어(Control) 문제에 대해서는 MC, DP, TD 모두 ..
Chapter 5에서는 Value Function을 추정하고 최적의 Policy를 찾는데 활용할 첫번째 "학습" 방법을 다룹니다. 이전 Dynamic Programming에서는 환경에대한 모델링을 알고있었기 때문에, 내가 어떤 State에서 어떤 행동을할때 얼마만큼의 확률로 어떤 State에 도달하는지 알수 있었고, 그에대한 Reward도 파악할 수 있었습니다. 즉, P(s,r | s`,a)를 알고있기 때문에 이를기반으로 Policy Evaluation과정을 진행할 수 있었습니다. 이러한 방식은 환경을 이미 다 알고 그안에서 에이전트가 어떻게 행동할지 결정한다는 점에서 Learning방식이라기보다는 Planning방식이라고 책에서는 구분짓습니다. Learning이라고 구분짓는 방식은 환경을 모른다고 가정..
"Dynamic Programming"이라는 용어는 MDP(Marcov Decision Process)같은 환경모델이 완벽하게 주어졌을때 -> State간의 Transition Probability와 그에 대한 Reward Funvtion이 완벽하게 정의되어 있을때 최적 정책을 계산하기위해 사용될 수 있는 일군의 알고리즘을 가리킵니다. 고전적인 DP 알고리즘은 기본적으로 환경에대한 Modeling이 완벽해야한다는 점과, 엄청난 양의 계산량을 필요로 하기때문에 그 활용도가 제한되지만 이론적으로는 현재까지도 중요한 위치를 차지합니다. 이번 Chapter4 에서 정의하는 환경은 Finite(유한) Marcov Decision Process 로 모델링된다고 가정합니다. -> 환경의 상태 S, 행동 A, 보상 R..
지난번에 이어서 계속 포스팅 해보도록 하겠습니다. ◆목차◎ 정책과 가치함수 (Policies and Value Functions)◎ 최적 정책과 최적 가치 함수 (Optimal Policies and Optimal Value Functions) ◎ 정책과 가치함수 (Policies and Value Functions)정책(Policy)과 Value function(가치함수)는 거의 모든 강화학습 알고리즘에 적용되는 개념입니다. Value function(가치함수)이란, "Agent가 현재 주어진 State에 있을때, 혹은 어떤 Action을 취할때 이것이 얼마나 좋은가"의 정량적 수치를 추정하는 함수를 말하며, 여기서 "얼마나 좋은가?"를 자세히 말하면 "Expected Sum of Futu..
Chapter 2에서 다룬 다중선택 문제는 비연합구조의 문제 (State-> Action -> Reward가 한번의 학습이 이루어지는 상황)의 상황이었습니다. https://roboharco12.tistory.com/54?category=1064282 단단한 강화학습 Chapter2_(1) _다중선택(Multi-armed Bandits) 강화학습과 다른 학습과의 가장 큰 차이점은 강화학습은 "정답(Label), 올바른 행동"을 학습할때 '지침(Instruction)'이 아니라, '평가(Evaluation)'하는 정보를 사용하여 학습한다는 것입니다. 지침적인(I roboharco12.tistory.com https://roboharco12.tistory.com/55 단단한 강화학습 Chapter2_(2) ..
지난 포스팅에 이어서 쭉 진행해보도록 하겠습니다. ◆목차 ◎ 긍정적 초깃값 (Optimistic Initial Values) ◎ 신뢰 상한 행동선택 (Upper-Confidence-Bound Action Selection) (UCB) ◎ 경사도 다중선택 알고리즘 (Gradient Bandit Algorithms) ◎ 연관탐색 (Associative Search (Contextual Bandits)) ◎ Chapter_2 Summary ◎ 긍정적 초깃값 (Optimistic Initial Values) 이전 포스팅에서 살펴본 모든 방법 (Stationary, Nonstationary상황에서 표본평균법, 고정된 시간 간격 방법)들은 초기 행동 가치 값(Initial Action Value Estimates)..