Wir freuen uns, dass unser Paper „Understanding or Memorizing? A Case Study of German Definite Articles in Language Models“ bei der ACL 2026 angenommen wurde, einer der wichtigsten internationalen Konferenzen im Bereich Natural Language Processing.
Große Sprachmodelle wie ChatGPT können erstaunlich gut flüssige und grammatikalisch korrekte Texte erzeugen. Doch verstehen sie Grammatik wirklich – oder greifen sie eher auf gelernte Muster zurück? Dieser Frage untersuchen wir anhand deutscher bestimmter Artikel wie der/die/das nach. Diese sind sprachlich besonders interessant, da ihre korrekte Verwendung sowohl vom Genus (männlich/weiblich/neutral) als auch vom Kasus/Fall (Nominative/Akkusativ/Genitiv/Dativ) abhängt und viele Formen in unterschiedlichen Genus-Kasus-Kombinationen auftreten.
Mithilfe unserer gradientenbasierten Interpretiermethode GRADIEND zeigen wir, dass Modelle grammatische Regeln oft nicht klar getrennt abbilden. Stattdessen werden unterschiedliche grammatische Kontexte teilweise gemeinsam repräsentiert, was darauf hindeutet, dass neben regelähnlichem Verhalten (d. h. „der“ wird aufgrund von Genus = maskulin und Fall = Nominativ erzeugt) auch Auswendiglernen eine Rolle spielt (d. h. das Modell nutzt die Form „der“ unabhängig vom konkreten grammatischen Kontext).
Die Ergebnisse geben neue Einblicke darin, wie Sprachmodelle sprachliche Strukturen intern repräsentieren, und zeigen zugleich Grenzen bei deren Interpretation auf.
Die Arbeit wurde von Jonathan Drechsel im Rahmen seiner Promotion unter der Betreuung von Steffen Herbold durchgeführt. Erisa Bytyqi hat im Rahmen ihrer Masterarbeit zu dem Projekt beigetragen.
Das Preprint ist auf arXiv verfügbar: https://arxiv.org/abs/2601.09313.