Wir freuen uns bekannt zu geben, dass unser Paper "Studying the explanations for the automated prediction of bug and non-bug issues using LIME and SHAP" im Journal Empirical Software Engineering veröffentlicht wurde.
Die Studie untersucht Korrelationen zwischen der Korrektheit und Qualität von Erklärungen von zwei Methoden für erklärbare KI (LIME und SHAP) für den Entscheidungsprozess eines seBERT-Modells, welches darauf trainiert wurde, Issues zu erkennen, die einen Bug beschreiben. Die Basis für die Studie liefern Daten aus einem ausführlichen qualitativen Bewertungsprozess, bei dem die drei Autoren jeweils LIME- und SHAP-Erklärungen mit vier Kategorien für Vorhersagen zu 3090 Problemen bewertet haben.
Entgegen unserer Annahme, dass Erklärungen für korrekte Vorhersagen von Bugs eine höhere Qualität haben als korrekte Vorhersagen von nicht-Bugs, fand das Modell erklärbare Signale für beide Kategorien. Außerdem hatte das Projekt, aus dem das Issue entnommen wurde, keinen Einfluss auf die Qualität.
Eine abschließende Untersuchung der Qualitätsunterschiede zwischen den beiden Methoden für erklärbare KI ergab, dass SHAP aufgrund seiner geringen Mehrdeutigkeit und höheren Kontextualität besser abschneidet als LIME. Wir kamen außerdem zu dem Schluss, dass das Bewerten von Erklärungen für Bug-Vorhersagen ein höchst subjektives Thema ist, da die Bewerter oft unterschiedliche Perspektiven zu diesem Thema haben.