Audiosegmentierung

Name

Audiosegmentierung: Automatische Segmentierung von Audiosignalen in homogene Abschnitte (Sprache/Nichtsprache, Musik/Sprache, Sprecherwechsel, …)

Funktionsweise

Das Verfahren und Softwaremodul zur Audiosegmentierung ist in der Lage, eine Audiosignal in homogene Abschnitte zu unterteilen und analog zu einer Videosegmentierung das Audiosignal automatisch zu segmentieren. Nachfolgende Segmente sind möglich:

Sprache/Nichtsprache: Hier wird das Audiosignal in Segmente die Sprache enthalten und Segmente, die keine Sprache enthalten zerlegt. Die Segmentgrenzen und die Klassifikation der Segmente (Sprache oder Nicht/Sprache) sind das Ergebnis der Analyse.Somit lassen sich nur die Segmente ansteuern oder herausfiltern, die Sprache enthalten.

Musik/Sprache: Längere TV- und vor allem Radiosendungen enthalten in der Regel umfangreiche Musikanteile. Diese lassen sich automatisch von den Sprachanteilen trennen. Das Verfahren ist in der Lage, die Segmentgrenzen (Timecode) automatisch zu ermitteln und hinsichtlich Musik und Sprache zu klassifizieren. Bei Bedarf können auch andere wiederkehrende Audioereignisse (z.B. Applaus) detektiert und klassifiziert werden.

Sprecherwechsel: Das Verfahren ist in der Lage eine längere Tonaufnahme in homogene Abschnitte, die zu einem Sprecher gehören, zu unterteilen. Es werden anhand der lokalen Sprecherprofile Übergänge von einem Sprecher zum anderen Sprecher detektiert. Der entsprechende Timecode enthält somit den exakten Zeitpunkt eines Sprecherwechsels.

Sprechergruppierung: Basierend auf den detektierten Sprecherwechselmarken lassen sich die Sprechersegmente in äußerungsspezifische Sprechercluster zusammenführen. Es werden sogenannte SprecherIDs auf Dateiebene vergeben, die die Segmente des gleichen Sprechers auszeichnen. Mittels einer graphischen Umsetzung lassen sich dann der Verlauf der Sprecher in einer Tondatei visualisieren.  Eine Erweiterung der Sprechergruppierung stellt die Sprecherkennung dar.

Nutzungspotentiale und Einsatzgebiete

Die Audiosegmentierung wird dazu verwendet, automatisch eine Strukturanalyse eines Tondokumentes (z.B. Radiosendung) durchzuführen. Die automatisch generierten Segmente lassen sich dann nutzen, um schneller in längeren Tondokumenten zu navigieren. Diese Navigationsunterstützung lässt sich im Medienplayer intergrieren.

Referenzprojekte

  • WDR – Audiomining: Segmentierung und Transkription von Radiosendungen

Anbieter und Ansprechpartner

Bilder

Zeitleiste als Ergebnis der Strukturanalyse

 Thomas Winkler

Audio Fingerprinting

Name

Audio Fingerprinting: Wiedererkennung von bekannten Audiosegmenten (Jingles, Musikbeiträge, etc.)

Funktionsweise

Das Verfahren ist in der Lage “Fingerprints” von Audiosegmenten zu erstellen und diese Fingerprints effizient in einer Datenbank mit vorhandenen Metadaten abzuspeichern. Anhand des Fingerprints lassen sich dann aufgenommene Audiosignale in der Datenbank finden und referenzieren. Nach diesem Prinzip funktionieren Lösungen wie Beispielsweise Shazam oder andere Content Recognition Lösungen.

Nutzungspotentiale und Einsatzgebiete

Immer mehr TV-Zuschauer nutzen parallel zum linearen Programm ein Second Screen Device, um z. B. mehr Informationen zur laufenden Sendung zu finden, oder sich mit Freunden in Sozialen Netzwerken auszutauschen. Es kommen immer mehr Second Screen Applikationen in den Markt, die häufig als Informationsaggregator und Kommunikationsplattform dienen.

Die Audio Fingerprinting Technologie zur Second Screen Synchronisation ermöglicht das Ausspielen von Inhalten auf dem Second Screen synchron zum laufenden TV-Programm. Dadurch kann zum Beispiel ein Produkt, dass im Fernsehgerät zu sehen ist, auf dem Second Screen direkt zum Verkauf angeboten werden.

Referenzprojekte

  • ARTE: about:kate – Crossmediales Storytelling durch Social TV und Second Screen Sync
  • LinkedTV: Television Linked To the Web
  • FIContent: Future Internet Content Platform

Anbieter und Ansprechpartner

Bilder

Second Screen

Thomas Winkler

Musikanteilsmessung

Name

Musikanteilsmessung

Funktionsweise

Mit dem Algorithmus zur automatischen Musikanteilsmessung bietet das Fraunhofer IDMT eine effektive Lösung zur exakten Aufzeichnung von Musik- und Sprachanteilen zur Optimierung von Radio- und TV-Programmen und zur gerechten Abrechnung für Rechteverwerter und Anbieter.

Arbeits- und Zeitersparnis
Dank des neuen Fraunhofer-Softwaretools ist eine manuelle Ermittlung von Musikanteilen nicht mehr notwendig. Arbeits- und zeitintensive Auswertungen von Inhalts- und Programmlisten gehören somit der Vergangenheit an. Die trainierten und typischen Audiokategorien wie Musik, Sprache (Wortbeiträge), Musik und Sprache sowie Stille werden automatisch im Sendungsverlauf oder innerhalb einer Datei zeitlich ermittelt.

Hohe Genauigkeit
Je nach Einsatzgebiet oder konkreter Verwendung kann ein Erkennungsraster zwischen mehreren Sekunden und 100 Millisekunden gewählt werden, um z. B. statistische Normalisierungen auszunutzen.

Einfache Integration
Die automatische Musikanteilsmessung setzt auf eine skalierbare Integration in Standard-Workflows und Komponenten. Das System ist für den Einsatz in der Produktion, im Live-Betrieb sowie bei Aufzeichnungen – online wie offline – geeignet.

Unkomplizierter Export
Das Softwaremodul kann in vorhandene Content-Management-Systeme integriert werden. Dabei erfolgt die Datenausgabe wahlweise in XML-Dateien, CUE-Sheets oder anderen standardisierten Exportformaten.

Nutzungspotentiale und Einsatzgebiete

  • Reporting: zertifizierte Musikanteilsmessung für Verwertungsgesellschaften
  • Monitoring: Optimierung der Musikanteile von Programmen und Beiträgen
  • Copyright: Filterung von Musikanteilen vor einer ressourcen-intensiven Abfrage von Titelinfos

Referenzprojekte

  • BR, HR, NDR Musikanteilsmessung

Anbieter und Ansprechpartner

Qualitätsprüfung

Name

Qualitätsprüfung – Automatisierte Erkennung von Fehlern und Qualitätsproblemen in A/V-Material

Funktionsweise

Mit Verfahren der digitalen Signalanalyse können vielfältige Informationen automatisiert aus audiovisuellen Inhalten gewonnen werden. Hierbei werden die decodierten Inhalte direkt auf Signalebene (base-band: Pixels bzw. Samples) analysiert. Es kann eine Vielzahl von technischen und inhaltlichen Parametern, Fehlern oder Qualitätsproblemen ermittelt werden. Auf dieser Grundlage können Lösungen für die automatische Qualitätsprüfung (QC: Quality Control) realisiert werden. Die am Fraunhofer IDMT entwickelten QC-Komponenten sind vielfältig in den Bereichen Broadcasting, Multimedia und digitale Archive einsetzbar.

Typische Qualitätsprobleme, die während des Produktionsprozesses oder auch bei der Übertragung auftreten können, sind z. B. Kodierartefakte wie Blocking oder Ringing, Unschärfe, Rauschen, Black Bars, Freezes, Mono-in Stereo, Clipping usw. Das decodierte A/V-Material wird frameweise untersucht und es werden Messwerte bzw. Qualitätsparameter für jede Fehlerklasse ermittelt. Ausgehend vom detektierten Auftreten einzelner Fehler und insbesondere aus dem kombinierten Auftreten verschiedener Fehlerarten können Rückschlüsse auf die Gesamtqualität des Materials gezogen werden. So ist bspw. eine intuitive Ampeldarstellung (rot/gelb/grün) der Qualität realisierbar. Je nach Anwendungsfall können vollautomatische oder auch teilautomatische (assisted) Prozesse für die Qualitätsprüfung aufgesetzt werden. Es können Fehlerberichte in gewünschtem Detailgrad generiert werden.

Die Qualitätsprüfung aus Signalebene (base-band Analyse) ergänzt die Container-Analyse und die Stream-Analyse und ermöglicht so die sehr detaillierte und effiziente Untersuchung des A/V-Materials.

Das Fraunhofer IDMT entwickelt und liefert Analysekomponenten für verschiedenste Fehlerarten. Das modulare Analysekonzept ermöglicht kundenspezifische Lösungen und auch die Detektion von sehr speziellen Fehlern und Qualitätsproblemen.

Nutzungspotentiale und Einsatzgebiete

Die automatisierte Prüfung von A/V-Material kann an verschiedensten Stellen im Produktionsprozess nutzbringend angewendet werden:

  • Eingangskontrolle beim Ingest: automatische Zurückweisung oder Unterstützung der manuellen Prüfung durch Identifizierung potentiell problematischer Abschnitte
  • Prüfung während der Produktion: Erkennung typischer Fehler beim Schnitt, z. B. Black Frames oder Testpattern/Test Tones, Formatfehler usw.
  • Ausgangskontrolle, Encoding/Transcoding: Erkennung von Kodierungsfehlern, Prüfung auf Konformität zu Standards und Regularien

Referenzprojekte

Anbieter und Ansprechpartner

Bilder

A-V_Analyzing Toolbox

MusikAnnotationEmpfehlung

Name

Soundslike 2.0 – Automatische Annotationen & Empfehlungen für Musik

Funktionsweise

Das Fraunhofer IDMT als Pionier im Bereich MIR (Music Information Retrieval) beschäftigt sich seit seiner Gründung mit der automatischen Extraktion von musikalischen Eigenschaften. Diese werden aus den gewonnenen akustischen und physikalischen Features der Musik in verständliche und allgemein gültige Beschreibungen übersetzt, die als zusätzliche Metadaten in Archiven und Musiksammlungen eingetragen werden können.

Dazu zählen u. a.: Style, Genre, Emotion, Valence, Arousal, Mood, MusicColor, MusicTexture, Tempo, Distortion, Dynamic, Percussive, Synthetic, Instrument.

Für die visuelle Unterstützung beim Auffinden der richtigen, passenden Songs oder Teilen von Werken können die Dateien automatisch segmentiert werden, z.B. in Strophe und Refrain.

Als Ergebnis wird eine Ähnlichkeitsmatrix für alle enthaltenen Titel ermittelt, wonach aus dem entsprechenden Konfidenzwerten Playlisten mit ähnlicher Musik erstellt werden können. Zusätzlich können ganze Alben oder Künstlerportfolios an Hand ihrer musikalischen Eigenschaften miteinander verglichen werden.

Das ganze System der inhaltsbasierten Empfehlung ist für den hybriden Einsatz optimiert, d.h. für die Individualisierung von Lösungen können existierende Metadaten oder gesammelte Nutzerdaten (Hörprofile inkl. Titel-IDs) bzw. Daten aus sozialen Netzwerken hinzugefügt und eventuell als Filter benutzt werden.

Außerdem ist es möglich, die komplette Umgebung auf neue Zielgruppen oder Inhaltsgruppen zu trainieren, um z.B. neue oder exotische Genre in bestimmten Regionen oder Produkten besser abzudecken. Dafür wird ein spezielles Training mit Referenz- und Kontrollgruppen der zu verbessernden Inhalte benötigt.

Der Algorithmus ist für alle Betriebssysteme optimiert, ist als Server- und Desktopversion erhältlich und sklalierbar für Archive mit einer 7-stelligen Anzahl an Titeln.

Nutzungspotentiale und Einsatzgebiete

  • Musik- und Audio-Archive: automatische Beschreibung von Musik für relevante Suche nach Stichworten (musikalische Merkmale)
  • Musikproduktion: automatische Zusammenstellung von ähnlichen Stücken für die Nachvertonung auf Basis inhaltlicher-musikalischer Eigenschaften unter Einbeziehung vorhandener Tags oder Schlagworte (in-Haus Datenbanken)
  • Musikprogramme: automatische Erstellung von Playlisten inhaltlich passender Musik als Vorschlag unter Einbeziehung eigener Metadaten (Filter für eigene Genre-Matrix u. ä.)

Referenzprojekte

  • Aupeo, Red Bull Mediahouse, Creative Network Design u. a.

Anbieter und Ansprechpartner

Linked Data Stack

Name

LOD2 Linked Data Stack – Vernetzung und Integration heterogener Informations- und Datenquellen

Funktionsweise

Medienarchive müssen mit einer Vielzahl weiterer heterogener Informations- und Datenquellen (andere Archive, Aggregatoren, Taxonomien/Thesauri, Geodaten) vernetzt werden. Das Linked-Data-Konzept bietet dafür ein umfassendes konzeptuelles und technologisches Rahmenwerk. Die Linked-Data-Prinzipien bauen auf den langjährig etablierten W3C-Standards RDF, RDF-Schema und OWL auf. Die Grundidee ist, jeden Daten- bzw. Metadateneintrag mittels einer URI weltweit eindeutig zu identifizieren und Informationen entsprechend in RDF-Statements zu repräsentieren. Mit dem LOD2 Linked Data Stack steht eine reife Technologieplattform für Transformation/Mapping, Publikation, automatisierte Verlinkung, Kuratierung und Exploration von Linked Data zur Verfügung. Im Ergebnis können Linked-Data-basierte Archive leicht mit weiteren Informationsquellen verknüpft werden, semantische facetten-basierte Suche erleichtert das Retrieval und Metadaten können mit umfassenden Zusatzinformationen aus öffentlichen (und internen) Quellen angereichert werden.

Nutzungspotentiale und Einsatzgebiete

  • Daten-Integration in und zwischen Medienarchiven
  • Nutzung von Hintergrundwissen aus der Linked Open Data Cloud (z.B. DBpedia)
  • automatische Verschlagwortung und Verlinkung
  • semantische Strukturierung von multimedialen Inhalten
  • semantische, facetten-basierte Suche

Referenzprojekte

Anbieter und Ansprechpartner

Bilder

Linked Data Cloud

Semantisches Daten-Wiki OntoWiki

AudioWatermarking

Watermarking für Audio

Name

Digitale Wasserzeichen für Audiodaten

Funktionsweise

Grundsätzlich versteht man unter einem digitalen Wasserzeichen ein Signal, welches mit einem Trägermedium, beispielsweise einem Musikstück, derart verknüpft wird, dass es für einen Menschen nicht wahrnehmbar ist, durch eine Computerprogramm aber ausgelesen werden kann. Wahrnehmbare Markierungen, beispielsweise in Geldscheinen oder der Schriftzug „Vertraulich“ quer über ein gedrucktes Dokument, werden ebenfalls als Wasserzeichen bezeichnet, hier aber nicht betrachtet.

Wichtig ist, dass bei der Nutzung digitaler Wasserzeichen immer bedacht wird, dass es sich um passive Verfahren handelt: Ein Wasserzeichen wird Teil des Trägermediums und verhält sich wie dieses. Es kann nicht von selbst heraus aktiv werden und beispielsweise einen Kopiervorgang unterbinden. Ähnlich wäre es auch, wenn man in ein Foto einen Text „Kopieren Verboten“ aufbringen würde. Ein Computer, der die Fotodatei kopiert, wird diesen Hinweis nicht beachten, wenn auf ihm keine Software installiert ist, die bei jedem Kopiervorgang die Fotos nach entsprechenden Vermerken durchsucht.

Unabhängig davon, wie ein Verfahren ein digitales Wasserzeichen in ein Medium einbettet, wird ein geheimer Schlüssel, ähnlich wie bei einem Verschlüsslungsverfahren, eingesetzt. Nur derjenige, der den Schlüssel kennt, kann das Wasserzeichen später auch wieder auslesen. Idealer Weise wird jeder, der diesen Schlüssel nicht kennt, nicht einmal feststellen können, ob in  einem Medium ein Wasserzeichen vorhanden ist oder nicht. Im Gegensatz zur Kryptographie sind bisher bei Wasserzeichen nur symmetrische Schlüssel verbreitet: Die Schlüssel zum Einbetten und zum Auslesen der Wasserzeichen sind identisch. Folglich kann jeder, der ein Wasserzeichen auslesen kann, auch Wasserzeichen einbetten, wenn er Zugriff auf das zugehörige Verfahren hat.

Daher werden Wasserzeichen, die für Sicherheitszwecke eingesetzt werden, üblicher Weise nicht öffentlich verwendet. Sowohl Einbetten als auch Auslesen geschieht in einer sicheren, geschlossenen Umgebung. Nur die markierten Medien werden im öffentlichen Raum zirkuliert. Das bedeutet nicht, dass die Nutzer der Medien nicht mitgeteilt bekommen, dass diese markiert sind. Sie haben nur keine Möglichkeit, selbst die Markierung auszulesen.

Nutzungspotentiale

Digitale Wasserzeichen werden im Archivbereich entweder als Quellenbeleg genutzt, um bei einer Weiterverwenden das Archiv als Ursprung des Materials nachweisen zu können, oder als Transaktionswasserzeichen, um individuelle Kopien voneinander unterscheiden zu können.

Die Wasserzeichenverfahren warden üblicher Weise als Eingangs- oder Ausgangsfiler von Content Management Systemen integriert.

Referenzprojekte

H2O4M: Pilotprojekt Wasserzeichen mit dem DRA

WDR CMS: Integration Audiowasserzeichen in WDR Content Management System

Ansprechpartner

Martin Steinebach

martin.steinebach@sit.fraunhofer.de

DDR-Tageszeitungen

DDR-Tageszeitungen der Staatsbibliothek zu Berlin

Name

DDR-Tageszeitungen der Staatsbibliothek zu Berlin

Projektart

Forschung/Anwendung

Auftraggeber

DFG

Laufzeit/Jahr

2012

Auftragnehmer

Staatsbibliothek zu Berlin, Fraunhofer IAIS, ArchivInForm

Kurzbeschreibung

Das von der DFG geförderte Projekt digitalisiert und erschließt semi-automatisch drei DDR-Tageszeitungen (Neues Deutschland, Berliner Zeitung, Neue Zeit) mit allen Ausgaben von 1946-1990. Gut 400.000 Zeitungsseiten werden dabei gescannt, Scan- und Bildfehler automatisch korrigiert und für die Erschließung zur Verfügung gestellt. Über eine Artikelsegmentierung werden Überschriften, Unterschriften und Artikelblöcke erkannt und auf Artikelebene gruppiert. Dabei werden im automatischen Schritt bereits sehr gute Ergebnisse erzielt. Eine OCR erkennt den Text im Bild und stellt die Artikel als Volltext zur Verfügung. In einer manuellen Nachbearbeitung werden die automatischen Ergebnisse optimiert und anschließend in ein gängiges Austauschformat konvertiert. Die so erschlossenen Ausgaben werden über eine Webseite abrufbar und durchsuchbar sowie zusätzlich als PDF mit Volltext bereitgestellt.

Eingesetzte Technologien

Automatische Scan-/Bildkorrektur, Artikelsegmentierung (Optical Layout Recognition, OLR), optische Zeichenerkennung (Optical Character Recognition, OCR), Artikelarchivexporter (für METS/MOTS/ALTO)

Nutzungspotentiale und Einsatzgebiete

Digitalisierung und Erschließung von Zeitungsarchiven; Verbesserter Zugriff auf Archivinhalte (Durchsuchbarkeit); Redaktionelle Suche; Erstellung kultureller/historischer Sonderausgaben; Recherchesystem für Historiker

Webseiten/Links

Ansprechpartner

  • Fraunhofer IAIS – Ulrich Wernecke  (Telefon: 02241 14 2530)
  • ArchivInForm, Staatsbibliothek zu Berlin

Ansprechpartner im Medienunternehmen

Dr. Lieder (Email)

Bilder

ProSiebenSat.1 Galileo Videolexikon

Name

Galileo Videolexikon

Projektart

Anwendung

Auftraggeber

SevenOne Intermedia / ProSiebenSat.1 Media AG

Laufzeit/Jahr

2011

Auftragnehmer

Fraunhofer IAIS

Kurzbeschreibung

Für das Galileo Videolexikon wurden automatisch die Galileo-Archivbestände mit Audiomining-Technologie erschlossen, um für Endanwender einen verbesserten Zugriff auf die Inhalte zu erreichen. Die Erschließung ermöglicht die Suche und direkte zeitliche Anwahl von Suchtreffern im gesprochenen Wort aller Galileo-Videos. Eine zusätzlich erzeugte Tag-Cloud der wichtigsten Wörter im gesprochenen Inhalt bietet eine zusätzliche Navigationsmöglichkeit durch die Inhalte.

Eingesetzte Technologien

Audiomining, Spracherkennung (LINK), Keywordextraktion (LINK)

Nutzungspotentiale und Einsatzgebiete

Erschließung von audiovisuellen Medien; Verbesserter Zugang zu Videoinhalten über erweiterte Such- und Navigationsfunktionalität

Webseite

Ansprechpartner

  • Fraunhofer IAIS – Angelika Pauer (Telefon: 02241 14 2186)
  • Ansprechpartner im Medienunternehmen: Manuel Seipolt (email)

Bilder

 

Layout-Analyse

Name

Layout-Analyse: Artikelsegmentierung von digitalisierten Zeitungsseiten

Funktionsweise

Bei der Artikelsegmentierung werden Zeitungsseiten automatisch in einzelne Artikel zerlegt. Jeder Artikel wird mit den genauen Koordinationsdaten gespeichert. Im Fall von z.B. Zeitungen werden dann XML-Beschreibungen der logischen und physischen Struktur von Dokumenten auf der Ebene von Artikeln erzeugt. Damit steht jeder Artikel als einzelnes Asset und Datenendpunkt zur Verfügung.
Da eine 100% Artikelsegmentierungsgenauigkeit nicht möglich ist, werden häufig manuelle Nacherarbeitungsschritte und -tools verwendet. Trotz des manuellen Nachverarbeitungsaufwands wird durch die automatische Artikelsegmentierung der Aufwand um den Faktor 5 verringert.

Nutzungspotentiale und Einsatzgebiete

Erschließung von Zeitungsseiten; Archive in Bibliotheken; Zeitungs- und Zeitschriftenverlage; Unterstützung der redaktionellen Suche; Einfache Erstellung von Zeitungs-Sonderausgaben (Jubiläumsausgaben, Jahresrückblicke, chronologische Themendossiers, etc.)

Referenzprojekte

Anbieter und Ansprechpartner

Fraunhofer IAIS (http://www.iais.fraunhofer.de/diensteplattform-technologien.html) – Dr. Stefan Eickeler (Telefon: 02241 14 1969)

Bilder