지식정리 - Reinforcement Learning

Aug 29, 2025

지식정리

Contents

Contents
Value based RL
DQN (Playing Atari with Deep Reinforcement Learning)
Policy based RL
vanilla policy gradient
natural policy gradient
TRPO
PPO
GRPO
Actor Critic based RL
Title

Value based RL

DQN (Playing Atari with Deep Reinforcement Learning)

Optimal Q-function에 대한 Bellman equation
target network와 experience replay를 적용해주면 된다

Policy based RL

vanilla policy gradient

natural policy gradient

TRPO

PPO

GRPO

Actor Critic based RL

Title

about me category gallery
seokzoo_@kakao.com