Contextual Bandits (Kontextuelle Banditen)
Ein Framework im Reinforcement Learning, bei dem ein Agent in jeder Runde einen Kontext erhält und basierend darauf eine Aktion ("Arm" eines "Banditen") auswählen muss, um eine Belohnung zu maximieren. Der Agent lernt eine Strategie (Policy), die den Kontext berücksichtigt.