At6712 Audio Mining
Frühjahrstagung 2021 Große Freiheit oder Quarantäne - Agile Mediendokumentation in Zeiten von Corona - 26.04.2021 - 28.04.2021 (Zoom)

Audio Mining

Durch den Einsatz komplexer neuronaler Lernverfahren und die Nutzung umfangreicher Trainingsdaten konnte die Leistungsfähigkeit von Audio Mining Technologien deutlich gesteigert werden. Während vor einigen Jahren noch Wortfehlerraten von 25% und mehr vorlagen, betragen diese bei aktuellen Systemen nur noch weniger als 10%. Somit konnte ein sinnvoller und produktiver Einsatz von Audio Mining Technologien in Archiv- und Produktionsanwendungen gewährleistet werden, um bei der automatisierten Erschließung und Transkription von Radio- und Fernsehbeiträgen zu unterstützen. Weitere Forschungsarbeiten im Fraunhofer IAIS haben zu weiteren Innovationen geführt, die neue Funktionalitäten des Audio Minings bereitstellen und weitere Anwendungskontexte erlauben. Diese werden nachfolgend dargestellt. Eine wichtige Erweiterung der Spracherkennung stellt die automatische Interpunktion dar. Mittels Machine Learning Verfahren werden automatisiert Satzzeichen in die Transkription eingefügt, so dass die Struktur und die Lesbarkeit der Transkripte deutlich gesteigert werden. Die Erkennungsraten für die Interpunktion liegen im Bereich von ca. 85% Erkennungsrate und haben in ersten Nutzertests zu einer besseren Akzeptanz der Audio Mining Technologie geführt. Eine weitere Innovation umfasst die Sprecherkennung. Während in vorhergehenden Versionen des Audio Mining lediglich Sprecher-Ids in einer Äußerung vergeben wurden, kann nun der Sprecher mittels Stimmprofil sicher erkannt werden. Dazu werden sogenannte iVektoren und xVektoren verwendet, um mittels Musterkennungsverfahren dann die Sprecher zu erkennen. Für das Training der Sprecherprofile ist die Unterstützung von Dokumentaren notwendig. Der Prozess des Sprechertrainings ist in der Regel semiautomatisch und die Grundlage für eine funktionierende Sprecherkennung. In ersten wissenschaftlichen Tests wurden hohe Erkennungsraten mit 7000 Sprechern erreicht, so dass nun in Zusammenarbeit mit der ARD die Sprecherprofile von zunächst ca. 250 angelegt wurden. Diese Sprecher werden dann mit einer neuen Version des Fraunhofer IAIS Audio Mining Systems sicher erkannt und automatisch annotiert. Neben den funktionalen Erweiterungen ergeben sich durch die stark verbesserten Erkennungsleistungen auch weitere Einsatzgebiete des Audio Minings. Diese reichen von der Live- Transkription, über den Einsatz im Produktionsumfeld bis hin zu dem Einsatz im Kontext von Zeitzeugeninterviews. In dem durch das BMBF geförderten Projekte KA3 wurde Audio Mining auf den Anwendungsfall von Zeitzeugeninterviews, die sich durch spontane und häufig schlechte Aufnahmequalität auszeichnen, hin optimiert. Mittels Adapationsverfahren und einer Datenaugmentierungsstrategie ist es gelungen die Erkennungsraten deutlich zu steigern, so dass auch qualitativ schwierige Zeitzeugeninterviews mit hohen Genauigkeit transkribiert wurden. Institute und Forschungsreinrichtungen, die sich mit Zeitzeugeninterviews beschäftigen (z.B. Institut für Geschichte und Biographie der Fernuniversität Hagen), setzen Audio Mining Technologie für die automatisierte Transkription ein. Somit lassen sich lange Interviews, die oftmals eine Länge von mehr als 4 Stunden aufweisen, in kurzer Zeit transkribieren und recherchieren. Dieser Anwendungsfall zeigt aber auch die noch bestehenden Herausforderungen und die Notwendigkeit weiterer Forschungsarbeiten auf dem Gebiet der Sprachverarbeitung. Künstlichen Intelligenz ist heute eine digitale Kerntechnologie um (Teil-)Prozesse zu automatisieren. Der Vortrag zeigt, welches Ziel der Westdeutschen Rundfunk mit der Generierung von Metadaten durch Künstliche Intelligenz verfolgt. Anschließend werden die zu schaffenden Rahmenbedingungen für den Einsatz von Künstlicher Intelligenz vorgestellt und beispielhaft an Hand eines Demonstrators die Potenziale mehrerer KI-Lösungen im Anwendungsfeld der Content Analyse aufgezeigt. Abschließend werden die Erkenntnisse aus der langjährigen Auseinandersetzung mit Künstlicher Intelligenz im Westdeutschen Rundfunk mit dem Auditorium geteilt.