Fakultät Informatik/Mathematik

AL4ML: Active-Learning in ML-Projekten: Evaluation und Handlungsempfehlungen

Maschinelles Lernen und Künstliche Intelligenz sind der Motor des Fortschritts in den Naturwissenschaften, der Medizin aber auch in alltäglichen Anwendungsbereichen geworden. Die meisten Ansätze der KI, wie z.B. Klassifikations- und Regressionsproblem, benötigen jedoch für den Lernprozess annotierte Trainingsdaten um eine Modellbildung zu ermöglichen. Die Güte dieser sogenannten überwachten Lernverfahren hängt inhärent von der Menge und Qualität der annotierten Daten ab. Zur Minimierung des Aufwands und der Kosten von Datenannotationsprojekten wurden bereits verschiedene Methoden entwickelt, von denen das Active Learning (AL) den wichtigsten Vertreter darstellt.

AL bezeichnet die algorithmische Auswahl jener Daten mit dem höchsten Informationsgehalt für das zu trainierende Verfahren. Statt aller Trainingsdaten müssen Domänenexperten nur diese Auswahl annotieren. Diese wird in mehreren Zyklen wiederholt bis sich die Genauigkeit des ML/KI-Verfahrens nicht mehr verbessert werden kann bzw. ein finanzielles oder zeitliches Budget aufgebraucht ist.

Die Zielstellung dieses Projekts besteht darin AL an praktischen Anwendungsfeldern systematisch zu evaluieren, konkrete Handlungsempfehlungen für den Einsatz von AL in Annotationsprojekten abzuleiten und damit den zukünftigen Einsatz von AL erheblich zu erleichtern.

Publikationen

  • Tamás Janusko, Julius Gonsior, Maik Thiele: An Empirical Study on the Robustness of Active Learning for Biomedical Image Classification under Model Transfer Scenarios. Workshop on EXplainable hEalthCare data Management and ANalytics (EXEC-MAN), Barcelona, 4. September, 2023