KI-Lexikon

Das erste große deutschsprachige KI-Lexikon

Ein Community-Projekt von David Mirga

← Zurück zur Übersicht

Direct Preference Optimization (DPO)

- Eine Trainingsmethode für Sprachmodelle (LLMs), die darauf abzielt, das Modell direkt anhand von menschlichen Präferenzen zwischen zwei oder mehr möglichen Antworten zu optimieren. Es ist eine Alternative oder Ergänzung zu Reinforcement Learning from Human Feedback (RLHF) und soll zu natürlicheren und bevorzugteren Modellausgaben führen.

Kategorie: D | Quelle: Das große KI-Lexikon von David Mirga