Name
AudioMining: Indizierung von Radio- und TV-Sendungen mittels Spracherkennung
Funktionsweise
Audiomining-Lösungen verwenden Spracherkennungstechnologien mit umfangreichen Wortschätzen. Die als Sprache identifizierten Abschnitte in einem Audiostrom werden in der Regel in eine textuelle wortbasierte Darstellung überführt. Die erkannten Worte werden in einer Indexstruktur gespeichert und können dann für Suchanwendungen verwendet werden.
Die zeitlichen Informationen der gesprochenen und erkannten Wörter/Phrasen werden so verwendet, dass der Nutzer direkt an die relevanten Stellen springen kann. Häufig enthält die Audiominingtechnologie Segmentierungsmodule, die eine Einteilung des Audiostroms in verschiedene Sprecherabschnitte ermöglicht. Alternativ zur reinen Worterkennung existieren Lösungen zur Erkennung von Wortuntereinheiten (Silben, Phoneme) die eine Wortschatzunabhängigkeit bei der Suche ermöglichen.
Erschwert wird die Erkennung von gesprochener Sprache durch Störgeräusche, Dialekte oder starker Spontansprache. Dadurch muss immer damit gerechnet werden, dass keine 100% Transkriptionen geliefert werden. Je nach Qualität der Daten liegen die Erkennungsraten für dokumentarartiges Material zwischen 80% und 92%. Sind perfekte Transkriptionen notwendig, kann optional eine manuelle Nachbearbeitung die Lücke zu den 100% schließen.
Nutzungspotentiale und Einsatzgebiete
Erschließung von audiovisuellen Archivdaten; Suche nach gesprochenen Stichwörtern; Erstellung von Inhaltsübersichten (Tag-Clouds) für Radio- und TV Beiträge; Suchfunktionalität für Archivare, Redakteure, Nutzer von Mediatheken, …
Referenzprojekte
- ARD – Mediathek: Transkription von Nachrichten- und Dokumentarsendungen
- ProSiebenSat1. Galileo: Indizierung von ca. 5000 Galileo-Sendungen
- EU-Projekt AXES
Anbieter und Ansprechpartner
- Fraunhofer IAIS (http://www.iais.fraunhofer.de/audiomining.html) – Dr. Joachim Köhler (Telefon: 02241 14-1900)