Die Forschung an unserem Lehrstuhl konzentriert sich auf das Verständnis der Qualität von Computersystemen, mit einem Schwerpunkt auf Softwarequalität – einschließlich der Qualität von Systemen, die Künstliche Intelligenz (KI) einsetzen. Wir befassen uns mit interner Qualität (z. B. Wartbarkeit), externer Qualität (z. B. Fehler) sowie nicht-funktionalen Aspekten wie der Einhaltung von Vorschriften (Compliance).
Dementsprechend sind unsere Forschungsmethoden vielfältig, lassen sich jedoch in drei Hauptkategorien einteilen: 1) das Verständnis von Software-Engineering durch Repository-Mining; 2) das Verstehen und Verbessern der Qualität von Machine-Learning-Modellen; 3) die Anwendung von Machine-Learning-Modellen.
Software-Repositories (z. B. GitHub) enthalten große Mengen an Daten über Software-Engineering, die wir sammeln und analysieren können. Wir nutzen diese Daten, um zu verstehen, wie sich Projekte entwickeln, und leiten daraus allgemeines Wissen über Software-Engineering ab – häufig mit dem Fokus auf Fehlern: Wie entstehen sie, wie werden sie gemeldet und wie werden sie behoben. Repositories ermöglichen es uns auch, viele weitere Aspekte zu untersuchen, z. B. wie Werkzeuge die Codequalität beeinflussen, welche Arten von Tests in Projekten eingesetzt werden, welche Entwicklungspraktiken angewendet werden und wie Entwickler mit nicht-funktionalen Aspekten wie Datenschutz, ethischen Fragestellungen oder der Einhaltung der EU KI-Verordnung (AI Act) umgehen.
Der Aufstieg von Machine Learning von einem Forschungsthema zu einer Schlüsseltechnologie innovativer Produkte bedeutet, dass wir ML-Software anders betrachten müssen: Statt eines Werkzeugs für Forscher zur Untersuchung von Phänomenen wird moderne, durch ML betriebene KI heute für vielfältige Aufgaben eingesetzt – etwa zur Bildklassifikation in Qualitätssicherungsprozessen, im Software-Engineering oder auch beim Verfassen und Analysieren von Texten. Während bis vor einigen Jahren das Training von Modellen für spezifische Zwecke dominierte, ist der Einsatz von Basismodellen (engl. foundation models) ohne aufgabenspezifisches Training heute ein prominentes Nutzungsparadigma.
Im Rahmen unserer aktuellen Arbeit konzentrieren wir uns auf Large Language Models (LLMs). Wir untersuchen deren allgemeine Fähigkeiten (z. B. Schreibqualität, Einnehmen bestimmter Standpunkte), inwiefern Basismodelle auf spezifische Domänen verallgemeinern, wie wir sie besser an neue Domänen anpassen können sowie wie sie intern funktionieren. Unser Ziel ist ebenso wichtig wie ambitioniert: Techniken zu entwickeln, um Fähigkeiten zu validieren (z. B. Arten des Schlussfolgerns, Kodierung sprachlicher Aspekte), die Teile der neuronalen Netze zu identifizieren, die diese Fähigkeiten kodieren, und deren kausale Verantwortung für diese Funktionalität zu belegen. Dies wird den Weg ebnen für die Segmentierung großer neuronaler Netze von allgemeinen zu kleineren, fähigkeitsspezifischen Netzen und unser Verständnis davon vertiefen, wie solche Technologien funktionieren.
Wir sind der Überzeugung, dass Qualität nicht allein anhand von Benchmarks untersucht werden kann, sondern auch im Hinblick auf KI-Anwendungen betrachtet werden muss. Daher liegt es nahe, unsere Position an der Schnittstelle zwischen Software-Engineering und KI zu nutzen, um auch mit Endnutzern und Domänenexperten zusammenzuarbeiten und konkrete KI-Anwendungen auf forschungsorientierte Weise zu entwickeln und zu verstehen. Unsere Kooperationspartner bringen Domänenwissen ein, während wir KI- und Werkzeugentwicklungsexpertise beisteuern. Wir untersuchen auch bestehende Werkzeuge, um sie besser zu verstehen – etwa um ihre Compliance zu bewerten. Solche Kooperationen sind für uns von zentraler Bedeutung, da sie uns helfen, unsere Arbeit zur Qualität von Machine Learning zu gestalten: Wir erfahren aus erster Hand, worauf es anderen ankommt, was sie von ML-Werkzeugen erwarten, und können daraus geeignete Forschungsziele ableiten sowie den praktischen Nutzen von KI-Lösungen evaluieren.