Bandit là gì?
Bài toán Multi-armed bandit là một bài toán kinh điển trong học tăng cường (reinforcement learning), yêu cầu người chơi lựa chọn giữa nhiều «tay kéo» (bandit arm) – ví dụ, các máy đánh bạc – mỗi tay kéo có xác suất trả thưởng khác nhau nhưng chưa biết trước.…