2010 แม้จะนาน แต่ไม่เป็นไร เพราะขนาดAI แข่งขัน chess ยังใช้ algorithm เดียวกับ Turing 1940

Reinforcement คือ การ learning paradigm เกี่ยวกับ maximize numerical performance measure เพื่อ express -> long-term object
แยกระหว่าง Reinforcement learning จาก Supervised learning เพียงแค่ partial feedback ที่ให้กลับมา เกี่ยวกับ learner’s prediction
– prediction นั้น อาจจะมี long term effects ที่มีผลกับ influencing future state
– time จึงมีอิทธิพลกับ long term effect ใน reinforcement มาก
– เล่มนี้ เน้นการ focus สร้างบน powerful theory of dynamic programming

1 Markov Decision Processes
2 Value Prediction Problems
3 Control
4. For Further Exploration
5. The Theory of Discounted Markovian Decision Processes

1 Markov Decision Processes

controller รับ controlled system’s state and reward , associate กับ last state transition

Basic reinforce scenario

Markovian Decision Processes (MDPs ) , standard approach เพื่อ solve MDP ใช้ dynamic programming เพื่อ transform problem ใน finding good controller -> ไปเป็น problem of finding good value function

2 key idea เพื่อให้ RL algorithms achieve goal
– ใช้ sample to compactly represent dynamic control problem

p ix

2 Value Prediction Problems

3 Control