Mixture of Experts (MoE)
Eine Architektur für neuronale Netze, insbesondere große Sprachmodelle, bei der das Modell aus vielen spezialisierten Untermodulen ("Experten") besteht. Für jede Eingabe wird ein Routing-Mechanismus aktiviert, der nur eine kleine Teilmenge der relevantesten Experten zur Verarbeitung auswählt, was die Effizienz bei sehr großen Modellen steigert.