Mechanistische Interpretierbarkeit (Mechanistic Interpretability)
Ein Forschungsgebiet der KI-Erklärbarkeit (XAI), das darauf abzielt, die internen Mechanismen und Algorithmen, die ein KI-Modell (insbesondere ein neuronales Netz) zur Entscheidungsfindung verwendet, detailliert zu verstehen und offenzulegen, anstatt nur Input-Output-Korrelationen zu betrachten.