The Markov Property assumes that the current state contains all the information needed to make decisions. In Markov environments such as chess or Tetris, the present state is enough to predict the future. When this assumption does not naturally hold, we redesign the state representation to make it approximately true.
A Markov Decision Process (MDP) is the standard framework used to describe RL problems using five components:
Understanding these components is essential because every RL problem can be described using an MDP.
GridWorld is a simple educational RL environment used to explain algorithms. The agent moves through a grid, receives rewards or penalties, and learns how to reach the goal efficiently. GridWorld will be used throughout the course to illustrate RL concepts and algorithms.
تفترض خاصية ماركوف أن الحالة الحالية تحتوي على جميع المعلومات اللازمة لاتخاذ القرار. في البيئات الماركوفية مثل الشطرنج أو Tetris، تكون الحالة الحالية كافية للتنبؤ بالمستقبل. وعندما لا يتحقق هذا الافتراض، نقوم بتعديل تمثيل الحالة ليصبح أقرب إلى البيئة الماركوفية.
تُستخدم Markov Decision Process (MDP) لوصف أي مشكلة في التعلم المعزز من خلال خمسة عناصر أساسية:
فهم هذه المكونات ضروري لأنها الأساس الذي تُبنى عليه جميع مسائل التعلم المعزز.
تُعد GridWorld بيئة تعليمية بسيطة تُستخدم لشرح خوارزميات RL. يتحرك الوكيل داخل شبكة، ويحصل على مكافآت أو عقوبات، ويتعلم كيفية الوصول إلى الهدف بأفضل طريقة. سيتم استخدام هذه البيئة باستمرار خلال الدورة لشرح المفاهيم والخوارزميات المختلفة.