2010 แม้จะนาน แต่ไม่เป็นไร เพราะขนาดAI แข่งขัน chess ยังใช้ algorithm เดียวกับ Turing 1940
Reinforcement คือ การ learning paradigm เกี่ยวกับ maximize numerical performance measure เพื่อ express -> long-term object
แยกระหว่าง Reinforcement learning จาก Supervised learning เพียงแค่ partial feedback ที่ให้กลับมา เกี่ยวกับ learner’s prediction
– prediction นั้น อาจจะมี long term effects ที่มีผลกับ influencing future state
– time จึงมีอิทธิพลกับ long term effect ใน reinforcement มาก
– เล่มนี้ เน้นการ focus สร้างบน powerful theory of dynamic programming
1 Markov Decision Processes
2 Value Prediction Problems
3 Control
4. For Further Exploration
5. The Theory of Discounted Markovian Decision Processes
1 Markov Decision Processes
controller รับ controlled system’s state and reward , associate กับ last state transition

Markovian Decision Processes (MDPs ) , standard approach เพื่อ solve MDP ใช้ dynamic programming เพื่อ transform problem ใน finding good controller -> ไปเป็น problem of finding good value function
2 key idea เพื่อให้ RL algorithms achieve goal
– ใช้ sample to compactly represent dynamic control problem
p ix
