Curriculum
Course: Reinforcement Learning Foundation
Login

Curriculum

Reinforcement Learning Foundation

Video lesson

RLF_S2L1: The Markov Property & MDPs — The Universal RL Grammar

Lesson video progress:
0%
of
100%

CONCEPT 1 — THE MARKOV PROPERTY

The Markov Property assumes that the current state contains all the information needed to make decisions. In Markov environments such as chess or Tetris, the present state is enough to predict the future. When this assumption does not naturally hold, we redesign the state representation to make it approximately true.


CONCEPT 2 — THE 5 COMPONENTS OF AN MDP

A Markov Decision Process (MDP) is the standard framework used to describe RL problems using five components:

  • S (State): possible situations
  • A (Actions): possible decisions
  • P (Transition): probability of moving between states
  • R (Reward): feedback signal
  • γ (Discount Factor): importance of future rewards

Understanding these components is essential because every RL problem can be described using an MDP.


CONCEPT 3 — GRIDWORLD AS AN MDP

GridWorld is a simple educational RL environment used to explain algorithms. The agent moves through a grid, receives rewards or penalties, and learns how to reach the goal efficiently. GridWorld will be used throughout the course to illustrate RL concepts and algorithms.


المفهوم الأول — خاصية ماركوف (Markov Property)

تفترض خاصية ماركوف أن الحالة الحالية تحتوي على جميع المعلومات اللازمة لاتخاذ القرار. في البيئات الماركوفية مثل الشطرنج أو Tetris، تكون الحالة الحالية كافية للتنبؤ بالمستقبل. وعندما لا يتحقق هذا الافتراض، نقوم بتعديل تمثيل الحالة ليصبح أقرب إلى البيئة الماركوفية.


المفهوم الثاني — المكونات الخمسة لـ MDP

تُستخدم Markov Decision Process (MDP) لوصف أي مشكلة في التعلم المعزز من خلال خمسة عناصر أساسية:

  • S (الحالة): الأوضاع الممكنة
  • A (الأفعال): القرارات الممكنة
  • P (الانتقال): احتمالية الانتقال بين الحالات
  • R (المكافأة): التغذية الراجعة
  • γ (معامل الخصم): أهمية المكافآت المستقبلية

فهم هذه المكونات ضروري لأنها الأساس الذي تُبنى عليه جميع مسائل التعلم المعزز.


المفهوم الثالث — GridWorld كنموذج MDP

تُعد GridWorld بيئة تعليمية بسيطة تُستخدم لشرح خوارزميات RL. يتحرك الوكيل داخل شبكة، ويحصل على مكافآت أو عقوبات، ويتعلم كيفية الوصول إلى الهدف بأفضل طريقة. سيتم استخدام هذه البيئة باستمرار خلال الدورة لشرح المفاهيم والخوارزميات المختلفة.