Kann ein KI-System zur Erkennung von Defekten in Gussteilen effizient nur mit simulierten Daten trainiert werden?
Die kurze Antwort lautet Nein. Im besten Fall hätten die simulierten Daten allein ausgereicht, um eine gut funktionierende KI zu trainieren. Eine KI, die ausschließlich mit simulierten Daten trainiert wurde, liefert zwar gute Ergebnisse auf synthetischen Testdaten, versagt jedoch bei der Anwendung auf realen Testdaten. Der Grund dafür liegt in der sogenannten Domänenverschiebung (»Domain Shift«) zwischen den simulierten Daten und den realen Röntgenbildern, die für den Anwendungsfall relevant sind. Kurz gesagt bedeutet dies, dass trotz der Ähnlichkeit zwischen simulierten und realen Daten systematische Unterschiede bestehen, die dazu führen, dass die KI Defekte in realen Daten nicht erkennen kann. Selbst die Hinzunahme einiger weniger realer Bilder hat nicht die gewünschten Ergebnisse erzielt.
Lösungsansatz für die dateneffiziente KI-Entwicklung
Daher ist es unerlässlich, auch annotierte reale Daten zu verwenden. Die nächste entscheidende Frage ist, wie man die kostengünstigeren simulierten Daten dennoch effektiv nutzen kann und welches Verhältnis von realen zu simulierten Daten gewählt werden sollte. Im Kontext der Leichtmetallfelgen wurden verschiedene Strategien zur KI-Entwicklung und -Schulung verglichen.
1. Full supervision: Ca. 2000 von Experten annotierte reale Röntgenbilder standen dem Projektteam für Training, Validierung und Test zur Verfügung.
2. Unsupervised-Domain-Adaptation: Zum Training der KI wurden neben den simulierten Daten nur nicht-annotierte reale Bilder verwendet.
3. Semi-Supervised-Domain-Adaptation: Zum Training der KI wurden neben den simulierten Daten größtenteils nicht-annotierte reale Bilder sowie zusätzlich einige wenige annotierte reale Bilder verwendet.
Die letzten beiden Strategien zeichnen sich durch einen geringeren Bedarf an annotierten realen Daten aus, was die Kosten massiv reduziert. Allerdings erfordern sie einen höheren Entwicklungsaufwand, da zusätzliche Domain-Adaptation Ansätze implementiert werden müssen.