On-Policy Learning (On-Policy-Lernen)
Ein Paradigma im Reinforcement Learning, bei dem ein Agent lernt, diejenige Strategie (Policy) zu verbessern, die er aktuell verwendet, um Aktionen auszuführen und Daten zu sammeln. Das Lernen erfolgt direkt auf Basis der aktuellen Interaktionserfahrungen.