Semantik

Schaffung von Transparenz bei KI-Entscheidungen

Semantik
© Fraunhofer IIS

Daten bilden den Rohstoff für alle Anwendungen maschineller Lernverfahren sowie Künstlicher Intelligenz. Nutzenbringende und sinnvolle Erkenntnisse auf Basis dieser Daten lassen sich jedoch nur dann extrahieren, wenn das damit verbundene oder darin enthaltene Wissen, also deren »Semantik«, in geeigneter Weise während oder nach der Entstehung der Daten erfasst, in geeigneter Form, d.h. gleichermaßen in einer von Menschen und Maschinen verständlicher Darstellung beschrieben und mit den eigentlichen Daten in Korrelation gesetzt wird.

Mit Bezug auf diese Anforderungen beschäftigt sich die Kompetenzsäule K8 »Semantik« mit zwei Schwerpunkten:

  • Erfassung von Wissen: Der erste Schwerpunkt konzentriert sich auf die Frage, wie »Modellwissen« in verschiedenen spezifischen Anwendungsbereichen (wie z.B. Fahrerunterstützung, Selbstlokalisation, Digitale Pathologie oder Segmentierung von XXL-Tomographie Daten) mit den dafür genutzten und benötigten Messdaten (z.B. Vitaldaten und Emotionen von Personen im Fahrzeug, Lokalisationsparameter, Mikroskopiedaten von histologischem Gewebe, XXL-Tomographiedaten) erfasst und gemeinsam beschrieben werden kann.
  • Der zweite Schwerpunkt beschäftigt sich mit der Herausforderung, die erfassten Informationen bzw. Semantiken mit den zugehörigen Messdaten (s.o.) derart zu verknüpfen, dass diese mittels methodischer Ansätze aus den Bereichen Datenanalyse, Maschinellem Lernen und Künstlichen Intelligenz verfügbar gemacht und für verschiedene Anwendungen nutzbar gemacht werden können.

Im Kontext der Wissenserfassung wurde eine Umfrage in Form von strukturierten Interviews mit den Experten der) Anwendungsprojekte begonnen, um zu extrahieren, zu erfassen und zu dokumentieren in welcher Form die Semantik (also das »Wissen«) bzgl. der damit verbundenen Fragestellungen und unterschiedlichen Datenquellen (Bilder, Bildvolumina, Videos, multimodale Zeitreihen, etc.) in den verschiedenen Anwendungsprojekten vorliegt, erfasst und verwaltet wird. Ziel dieser Umfrage ist zum einen die Erstellung eines gemeinsamen Verständnisses über den Begriff »Semantik« und zum anderen die Findung von Synergien bei deren Erfassung und Nutzung.

Auf den so erhobenen Rückmeldungen wurde ein erstes Clusterring der verschiedenen Methoden zur Wissenserfassung durchgeführt. Diese Ansätze lassen sich aktuell in folgende Gruppen einteilen.  

Ikonische Annotation

Bei der Ikonischen Annotation werden Regionen in 2D und 3D Bilddaten bildhaft eingezeichnet und markiert (»gelabelt«) . Für den Bereich der »Digitalen Pathologie« bestehen diese eingezeichneten Regionen bspw. aus verschiedenen Gewebearealen mit bestimmten anatomischen oder pathologischen Eigenschaften wie »Tumor«, »Bindegewebe« oder »Entzündetes Gewebe«, wohingegen bei der Segmentierung von XXl-CT Daten diese hangelabelten Regionen z. B. »Schrauben«, »Bleche« oder »Nieten« beschreiben. Ähnliche Ansätze werden auch für das Erfassen von Informationen in Videoströmen (z.B. von Fußballspielen) genutzt, bei der manuell die 2D-Positionen von Ball und Spieler über die Zeit sowie wichtige Events (Foul, Tor, Aus) markiert werden.  

Simulation

Für Anwendungen aus den Bereichen »Autonomes Fahren« oder »Automatische KI-basierte Analyse von Spielen« (Effiziente Suche und Repräsentation von Trackingsdaten z.B. Fußball, Basketball, Eishockey) werden neben (schwer erhältlichen realen Daten) u.a. kommerziell verfügbare Simulatoren (Fahr- und Spielesimulatoren) genutzt, bei denen die durch die Datenanalyse vorherzusagende Informationen (»Semantik«) automatisch vom Simulator zur Verfügung gestellt wird und damit die »Messbare Grundwahrheit« bildet.

Referenzsysteme

Für Anwendungen zur Selbstlokalisation, zum Indoor-Tracking, und zur Navigation mittels preiswerten Smartphones werden als Referenz-Systeme qualitativ hochwertige Sensoren wie präzise optische Tracking-Systeme oder Roboter genutzt.

Semantische Netzwerke und Regelbasierte Systeme

Hier wird das Expertenwissen über eine Domäne (z.B. über die Zusammensetzung von Baugruppen in Automobilen oder Flugzeugen) in Form von geeigneten maschinen-lesbaren Regeln und formalen Beziehungsgraphen formuliert und abgelegt, die dann durch eine Maschine interpretiert werden können.

Ziel der Aufbereitung und Zusammenstellung ist es einen Empfehlungskatalog für die Erfassung verschiedener Semantiken unterschiedlicher Daten zu erstellen, um sich dann dem zweiten Schwerpunkt, der Nutzbarmachung des Wissens für verschiedene Anwendungen, zu widmen.

Die KI-Kompetenzsäulen des ADA Lovelace Centers

Automatisches Lernen

Automatisches Lernen
© Fraunhofer IIS

Das automatische und adaptive Lernen (AutoML) beschäftigt sich mit der Automatisierung des KI Prozesses und von besonders arbeitsintensiven, manuellen Aufgaben, die im Regelfall von Experten durchgeführt werden. So wird das Maschinelle Lernen zugänglicher und effizienter. AutoML deckt einen großen Bereich ab, der bei der Automatisierung der Merkmalserkennung und -auswahl für gegebene Datensätze sowie der Modellsuche und -optimierung beginnt, über deren automatisierte Bewertung reicht und bis hin zur adaptiven Anpassung der Modelle durch Trainingsdaten und Systemfeedback geht.  

Das könnte Sie auch interessieren

Weiterbildungen am ADA Lovelace Center

Das ADA Lovelace Center for Analytics, Data and Applications bietet – gemeinsam mit seinen Kooperationspartnern – Weiterbildungsprogramme rund um Konzepte, Methoden und konkrete Anwendungen im Themenbereich Data Analytics und KI.

Hierzu werden Seminare mit den folgenden Schwerpunkten angeboten:

Maschinelles Lernen

Reinforcement Learning