Im Artikel „Differential testing for machine learning: an analysis for classification algorithms beyond deep learning”, der vor kurzem in der Fachzeitschrift Empirical Software Engineering erschienen ist, haben Forschende von unserem Lehrstuhl überprüft, inwiefern sich verschiedene Machine Learning Frameworks sich dazu nutzen lassen, sich gegenseitig zu testen. Die Idee ist, das man zum Beispiel den Random Forest aus Scikit-Learn nutzt und die Ergebnisse mit denen aus einem anderen Framework wie Weka vergleicht. Wenn mehrere Frameworks das gleiche Ergebnis liefern, eines jedoch abweicht, deutet das auf Fehler hin. Die Forschenden haben herausgefunden, dass es für diesen Ansatz theoretisch ein großes Potential gibt, weil viele Algorithmen in mehreren Frameworks implementiert sind. Doch dieses Potential lässt sich häufig nicht nutzen, weil es nur wenige Kombination gibt, in denen Algorithmen mit den gleichen Designentscheidungen umgesetzt werden. Und selbst in diesen fällen weichen die Ergebnisse aufgrund von subtilen Unterschieden sehr häufig voneinander ab, sodass der praktische Nutzen eines solchen Testansatzes zweifelhaft ist.