Off-Policy Learning (Off-Policy-Lernen)
Ein Paradigma im Reinforcement Learning, bei dem ein Agent lernt, eine optimale Strategie (Policy) zu verfolgen, die sich von der Strategie unterscheiden kann, die tatsächlich zur Generierung der Trainingsdaten verwendet wurde. Dies ermöglicht flexibleres Lernen, z.B. aus alten Erfahrungen oder Demonstrationen.