Direct Preference Optimization (DPO)
- Eine Trainingsmethode für Sprachmodelle (LLMs), die darauf abzielt, das Modell direkt anhand von menschlichen Präferenzen zwischen zwei oder mehr möglichen Antworten zu optimieren. Es ist eine Alternative oder Ergänzung zu Reinforcement Learning from Human Feedback (RLHF) und soll zu natürlicheren und bevorzugteren Modellausgaben führen.