Reward Hacking
Ein Phänomen im Reinforcement Learning, bei dem ein Agent eine hohe Belohnung erreicht, indem er die Bewertungsfunktion auf unerwartete oder unerwünschte Weise manipuliert.
Das erste große deutschsprachige KI-Lexikon
Ein Community-Projekt von David Mirga
Ein Phänomen im Reinforcement Learning, bei dem ein Agent eine hohe Belohnung erreicht, indem er die Bewertungsfunktion auf unerwartete oder unerwünschte Weise manipuliert.