Wir freuen uns, bekannt zu geben, dass das Paper „GRADIEND: Feature Learning within Neural Networks Exemplified through Biases“ von Jonathan Drechsel und Steffen Herbold zur Präsentation auf der International Conference on Learning Representations (ICLR) 2026 angenommen wurde, einer der führenden internationalen Konferenzen im Bereich Machine Learning.
Vor zwei Jahren sorgte Anthropic mit Sparse Autoencoders (SAEs) für große Aufmerksamkeit als Methode zum Feature-Lernen, die auf große Sprachmodelle skalierbar ist. SAEs zeigten, dass einzelne Neuronen mit konkreten Merkmalen (z.B. der Golden Gate Bridge) assoziiert sein können und dass sich das Modellverhalten durch gezielte Manipulation dieser Neuronen zur Laufzeit verändern lässt.
Allerdings weist dieser Ansatz eine wesentliche Einschränkung auf. Er gleicht einer Gießkanne: Zunächst werden tausende potenzieller Features gelernt, und erst anschließend wird versucht zu interpretieren, wofür diese stehen. Dies ist rechnerisch sehr aufwendig und wenig präzise, wenn gezielt ein bestimmtes Feature untersucht werden soll. Zudem lassen sich SAE-basierte Analysen bislang nicht auf alle Neuronen eines Modells gleichzeitig anwenden, sondern meist nur auf ausgewählte Layer.
Um diese Probleme zu adressieren, haben wir GRADIEND entwickelt – einen präzisen Feature-Learner. Die Methode erfordert eine Definition des interessierenden Features, ausgedrückt durch sorgfältig konstruierte Daten. Dafür identifiziert GRADIEND das Feature direkt in einem gesamten Sprachmodell, indem die zugehörigen Gewichte lokalisiert werden (d.h. auf der kleinstmöglichen Granularitätsebene). Aufgrund ihres gradientenbasierten Aufbaus ermöglicht die Methode zudem ein gezieltes Umschreiben von Modellgewichten, um das Modellverhalten in Bezug auf das Feature zu verändern.
Die Kernidee von GRADIEND ist einfach: Wir berechnen die Differenz zwischen einem Feature und seinem Kontrafaktum und lernen aus dem resultierenden Gradienten. Dies lässt sich am folgenden Beispiel veranschaulichen:
- Faktisch: Jonathan macht seinen Doktor. Er schreibt über Forschung.
- Kontrafaktisch: Jonathan macht seinen Doktor. Sie schreibt über Forschung.
GRADIEND analysiert, wie sich das Modell verändern müsste, um jeweils eine der beiden Aussagen wahrscheinlicher zu machen, und lernt das zugrunde liegende Feature aus dieser Differenz.
In unserer Arbeit zeigen wir, dass GRADIEND lokalisieren kann, wo Geschlechtsinformationen in Modellgewichten gespeichert sind, dass sich Geschlecht allein auf Basis dieser gelernten Features vorhersagen lässt und dass Modelle durch gezieltes Umschreiben der Gewichte hinsichtlich ihres Gender Bias angepasst werden können. Die Methode übertrifft andere gewichtsbasiierte Debiasing-Ansätze und erreicht in Kombination mit projektionsbasierten Verfahren den aktuellen Stand der Technik.
Links:
- arXiv: arxiv.org/abs/2502.01406
- OpenReview: openreview.net/forum