مشكلة قطاع الطرق متعددي الأذرع (Multi-armed bandit) هي مشكلة كلاسيكية في تعلم التعزيز، تتطلب من اللاعب الاختيار بين عدة “أذرع” – على سبيل المثال، ماكينات القمار – لكل ذراع احتمالية مختلفة للدفع لكنها غير معروفة مسبقًا. الهدف هو زيادة إجمالي المكافآت المتحصل عليها بعد عدد معين من السحوبات. إذن، ما هو قطاع الطرق في هذا السياق؟ قطاع الطرق يشير إلى كل ذراع في ماكينة القمار، أو بعبارة أخرى، كل خيار متاح للاعب. كل قطاع طرق يُنتج نتيجة عشوائية مع توزيع احتمالي خاص به.
تطرح هذه المشكلة معضلة: الاستكشاف أو الاستغلال. الاستكشاف يعني تجربة عدة قطاع طرق مختلفة للعثور على قطاع الطرق ذي أعلى احتمال للدفع. الاستغلال يعني التركيز على قطاع الطرق الذي يُعتقد أنه الأفضل حاليًا لزيادة المكافآت. تحقيق التوازن بين الاستكشاف والاستغلال هو جوهر مشكلة قطاع الطرق متعددي الأذرع.
ما هو قطاع الطرق ولماذا هذه المشكلة مهمة؟ في الواقع، يمكن نمذجة العديد من المشاكل على أنها مشكلة قطاع الطرق متعددي الأذرع. على سبيل المثال:
- الإعلانات عبر الإنترنت: أي شعار سيجذب أكبر عدد من النقرات؟ كل شعار هو قطاع طرق، والنقرات هي المكافأة.
- التسعير الديناميكي: ما هو السعر الذي سيُحسِّن الإيرادات أو الأرباح؟ كل سعر هو قطاع طرق، والإيرادات/الأرباح هي المكافأة.
- أنظمة التوصية: أي منتج يجب أن يُوصى به للمستخدم؟ كل منتج هو قطاع طرق، ورضا المستخدم هو المكافأة.
- التجارب السريرية: أي طريقة علاج هي الأكثر فعالية والأقل آثارًا جانبية؟ كل طريقة هي قطاع طرق، وفعالية العلاج هي المكافأة.
لحل مشكلة قطاع الطرق متعددي الأذرع، تم تطوير العديد من الخوارزميات، لكل منها نهجها الخاص لتحقيق التوازن بين الاستكشاف والاستغلال. بعض الخوارزميات الشائعة تشمل:
- الخوارزمية الساذجة: تجربة كل قطاع طرق عددًا ثابتًا من المرات، ثم اختيار قطاع الطرق ذي أعلى متوسط مكافأة.
- خوارزمية ε-Greedy: باحتمال ε، اختيار قطاع طرق عشوائي للاستكشاف؛ باحتمال 1-ε، اختيار قطاع الطرق ذي أعلى متوسط مكافأة للاستغلال.
- خوارزمية UCB (Upper Confidence Bound): اختيار قطاع الطرق ذي أعلى حد ثقة علوي، يجمع بين متوسط المكافأة وعدم اليقين في التقدير.
- خوارزمية Thompson Sampling: استخدام توزيع احتمالي Bayesian لتقدير مكافأة كل قطاع طرق واختيار قطاع الطرق بناءً على احتمال كونه الأفضل.
لكل خوارزمية مزايا وعيوب خاصة بها، وتعتمد فعاليتها على الخصائص المحددة للمشكلة. فهم ما هو قطاع الطرق والخوارزميات ذات الصلة سيساعد في اختيار الطريقة المناسبة لتحسين القرارات في المواقف غير المؤكدة.
يعتمد اختيار الخوارزمية المناسبة على المشكلة المحددة ومتطلبات أداء الحوسبة. على سبيل المثال، غالبًا ما تكون خوارزمية Thompson Sampling أكثر فعالية من خوارزمية UCB في التطبيقات العملية مع كميات كبيرة من البيانات ومتطلبات المعالجة في الوقت الفعلي.