Learning Rate Warmup
Eine Trainingsstrategie, bei der die Lernrate zu Beginn des Trainings langsam erhöht wird, bevor sie in den regulären Bereich übergeht. Ziel ist es, instabile Gradienten am Anfang zu vermeiden und ein robusteres Training großer Modelle zu ermöglichen.