Kategorie-Archiv: Audio- und Sprachdokumentation

Z.B.: Audiomining / Musik-Erkennung / Sprechererkennung / Audiosegmentierung / Audiofingerprinting / Watermarking für Audio

Musikanteilsmessung

Name

Musikanteilsmessung

Funktionsweise

Mit dem Algorithmus zur automatischen Musikanteilsmessung bietet das Fraunhofer IDMT eine effektive Lösung zur exakten Aufzeichnung von Musik- und Sprachanteilen zur Optimierung von Radio- und TV-Programmen und zur gerechten Abrechnung für Rechteverwerter und Anbieter.

Arbeits- und Zeitersparnis
Dank des neuen Fraunhofer-Softwaretools ist eine manuelle Ermittlung von Musikanteilen nicht mehr notwendig. Arbeits- und zeitintensive Auswertungen von Inhalts- und Programmlisten gehören somit der Vergangenheit an. Die trainierten und typischen Audiokategorien wie Musik, Sprache (Wortbeiträge), Musik und Sprache sowie Stille werden automatisch im Sendungsverlauf oder innerhalb einer Datei zeitlich ermittelt.

Hohe Genauigkeit
Je nach Einsatzgebiet oder konkreter Verwendung kann ein Erkennungsraster zwischen mehreren Sekunden und 100 Millisekunden gewählt werden, um z. B. statistische Normalisierungen auszunutzen.

Einfache Integration
Die automatische Musikanteilsmessung setzt auf eine skalierbare Integration in Standard-Workflows und Komponenten. Das System ist für den Einsatz in der Produktion, im Live-Betrieb sowie bei Aufzeichnungen – online wie offline – geeignet.

Unkomplizierter Export
Das Softwaremodul kann in vorhandene Content-Management-Systeme integriert werden. Dabei erfolgt die Datenausgabe wahlweise in XML-Dateien, CUE-Sheets oder anderen standardisierten Exportformaten.

Nutzungspotentiale und Einsatzgebiete

  • Reporting: zertifizierte Musikanteilsmessung für Verwertungsgesellschaften
  • Monitoring: Optimierung der Musikanteile von Programmen und Beiträgen
  • Copyright: Filterung von Musikanteilen vor einer ressourcen-intensiven Abfrage von Titelinfos

Referenzprojekte

  • BR, HR, NDR Musikanteilsmessung

Anbieter und Ansprechpartner

Qualitätsprüfung

Name

Qualitätsprüfung – Automatisierte Erkennung von Fehlern und Qualitätsproblemen in A/V-Material

Funktionsweise

Mit Verfahren der digitalen Signalanalyse können vielfältige Informationen automatisiert aus audiovisuellen Inhalten gewonnen werden. Hierbei werden die decodierten Inhalte direkt auf Signalebene (base-band: Pixels bzw. Samples) analysiert. Es kann eine Vielzahl von technischen und inhaltlichen Parametern, Fehlern oder Qualitätsproblemen ermittelt werden. Auf dieser Grundlage können Lösungen für die automatische Qualitätsprüfung (QC: Quality Control) realisiert werden. Die am Fraunhofer IDMT entwickelten QC-Komponenten sind vielfältig in den Bereichen Broadcasting, Multimedia und digitale Archive einsetzbar.

Typische Qualitätsprobleme, die während des Produktionsprozesses oder auch bei der Übertragung auftreten können, sind z. B. Kodierartefakte wie Blocking oder Ringing, Unschärfe, Rauschen, Black Bars, Freezes, Mono-in Stereo, Clipping usw. Das decodierte A/V-Material wird frameweise untersucht und es werden Messwerte bzw. Qualitätsparameter für jede Fehlerklasse ermittelt. Ausgehend vom detektierten Auftreten einzelner Fehler und insbesondere aus dem kombinierten Auftreten verschiedener Fehlerarten können Rückschlüsse auf die Gesamtqualität des Materials gezogen werden. So ist bspw. eine intuitive Ampeldarstellung (rot/gelb/grün) der Qualität realisierbar. Je nach Anwendungsfall können vollautomatische oder auch teilautomatische (assisted) Prozesse für die Qualitätsprüfung aufgesetzt werden. Es können Fehlerberichte in gewünschtem Detailgrad generiert werden.

Die Qualitätsprüfung aus Signalebene (base-band Analyse) ergänzt die Container-Analyse und die Stream-Analyse und ermöglicht so die sehr detaillierte und effiziente Untersuchung des A/V-Materials.

Das Fraunhofer IDMT entwickelt und liefert Analysekomponenten für verschiedenste Fehlerarten. Das modulare Analysekonzept ermöglicht kundenspezifische Lösungen und auch die Detektion von sehr speziellen Fehlern und Qualitätsproblemen.

Nutzungspotentiale und Einsatzgebiete

Die automatisierte Prüfung von A/V-Material kann an verschiedensten Stellen im Produktionsprozess nutzbringend angewendet werden:

  • Eingangskontrolle beim Ingest: automatische Zurückweisung oder Unterstützung der manuellen Prüfung durch Identifizierung potentiell problematischer Abschnitte
  • Prüfung während der Produktion: Erkennung typischer Fehler beim Schnitt, z. B. Black Frames oder Testpattern/Test Tones, Formatfehler usw.
  • Ausgangskontrolle, Encoding/Transcoding: Erkennung von Kodierungsfehlern, Prüfung auf Konformität zu Standards und Regularien

Referenzprojekte

Anbieter und Ansprechpartner

Bilder

A-V_Analyzing Toolbox

MusikAnnotationEmpfehlung

Name

Soundslike 2.0 – Automatische Annotationen & Empfehlungen für Musik

Funktionsweise

Das Fraunhofer IDMT als Pionier im Bereich MIR (Music Information Retrieval) beschäftigt sich seit seiner Gründung mit der automatischen Extraktion von musikalischen Eigenschaften. Diese werden aus den gewonnenen akustischen und physikalischen Features der Musik in verständliche und allgemein gültige Beschreibungen übersetzt, die als zusätzliche Metadaten in Archiven und Musiksammlungen eingetragen werden können.

Dazu zählen u. a.: Style, Genre, Emotion, Valence, Arousal, Mood, MusicColor, MusicTexture, Tempo, Distortion, Dynamic, Percussive, Synthetic, Instrument.

Für die visuelle Unterstützung beim Auffinden der richtigen, passenden Songs oder Teilen von Werken können die Dateien automatisch segmentiert werden, z.B. in Strophe und Refrain.

Als Ergebnis wird eine Ähnlichkeitsmatrix für alle enthaltenen Titel ermittelt, wonach aus dem entsprechenden Konfidenzwerten Playlisten mit ähnlicher Musik erstellt werden können. Zusätzlich können ganze Alben oder Künstlerportfolios an Hand ihrer musikalischen Eigenschaften miteinander verglichen werden.

Das ganze System der inhaltsbasierten Empfehlung ist für den hybriden Einsatz optimiert, d.h. für die Individualisierung von Lösungen können existierende Metadaten oder gesammelte Nutzerdaten (Hörprofile inkl. Titel-IDs) bzw. Daten aus sozialen Netzwerken hinzugefügt und eventuell als Filter benutzt werden.

Außerdem ist es möglich, die komplette Umgebung auf neue Zielgruppen oder Inhaltsgruppen zu trainieren, um z.B. neue oder exotische Genre in bestimmten Regionen oder Produkten besser abzudecken. Dafür wird ein spezielles Training mit Referenz- und Kontrollgruppen der zu verbessernden Inhalte benötigt.

Der Algorithmus ist für alle Betriebssysteme optimiert, ist als Server- und Desktopversion erhältlich und sklalierbar für Archive mit einer 7-stelligen Anzahl an Titeln.

Nutzungspotentiale und Einsatzgebiete

  • Musik- und Audio-Archive: automatische Beschreibung von Musik für relevante Suche nach Stichworten (musikalische Merkmale)
  • Musikproduktion: automatische Zusammenstellung von ähnlichen Stücken für die Nachvertonung auf Basis inhaltlicher-musikalischer Eigenschaften unter Einbeziehung vorhandener Tags oder Schlagworte (in-Haus Datenbanken)
  • Musikprogramme: automatische Erstellung von Playlisten inhaltlich passender Musik als Vorschlag unter Einbeziehung eigener Metadaten (Filter für eigene Genre-Matrix u. ä.)

Referenzprojekte

  • Aupeo, Red Bull Mediahouse, Creative Network Design u. a.

Anbieter und Ansprechpartner

EU Projekt AXES

Projektname

AXES – Access to Audiovisual Archives

Projektart

Forschung

Auftraggeber

EU

Laufzeit/Jahr

Januar 2011 – Dezember 2014

Projektpartner

ERCIM (FR), Katholieke Universiteit Leuven (BE), University of Oxford (UK), INRIA (FR), DCU (IE), Fraunhofer IAIS (DE), Universiteit Twente (NL), BBC (UK), Beeld En Geluid (NL), Deutsche Welle (DE), technicolor (FR), Cassidian (FR), Erasmus Universiteit Rotterdam (NL)

Projektinhalt

Ziel von AXES ist die Entwicklung von Werkzeugen zur Annotation und Aufbereitung von audio-visuellen Datenbeständen und Archiven. Hierbei kommen verschiedene Technologien zur Erschließung, Verknüpfung und Suche zum Einsatz. Neben der Audiomining-Technologie zur Indizierung und Suche im gesprochenen Wort, können z.B. auch Konzepte im Video oder ähnliche Bilder zu einem Beispielbild gesucht werden.
Durch eine Verbindung der verschiedenen Modalitäten und eine intelligente Verknüpfung werden weitere innovative Such- und Navigationsmöglichkeiten untersucht und entwickelt, um den Zugriff auf und die Verwertung von großen Medienbeständen zu verbessern. Für unterschiedliche Anwendungen und Anwender sollen jeweils optimierte Zugriffsmöglichkeiten vom unterstützten „Durchstöbern“ über geführte Navigation bis hin zur gezielten multimodalen Suche erforscht und bereitgestellt werden.

Eingesetzte Technologien

Audiomining, Audiosegmentierung (LINK), Videosegmentierung in Shots (LINK), Face-Recognition (LINK), Video-Konzepterkennung (LINK), Bildähnlichkeitssuche (LINK)

Nutzungspotentiale und Einsatzgebiete

Erschließung von audiovisuellen Archiven; Such- und Navigationsfunktionalität für Archivare, Redakteure, Wissenschaftler, Endanwender, etc.; Verknüpfung und Empfehlung ähnlicher Inhalte

Webseite

http://www.axes-project.eu

Ansprechpartner

Fraunhofer IAIS (http://www.iais.fraunhofer.de/axes.html) – Jochen Schwenninger (Telefon 02241 14-2062)

Ansprechpartner im Medienunternehmen

Deutsche Welle (Peggy van der Kreeft , Email)

Bilder

Axes-logo-rgb-01-e1345542215627

AudioMining

Name

AudioMining: Indizierung von Radio- und TV-Sendungen mittels Spracherkennung

Funktionsweise

Audiomining-Lösungen verwenden Spracherkennungstechnologien mit umfangreichen Wortschätzen. Die als Sprache identifizierten Abschnitte in einem Audiostrom werden in der Regel in eine textuelle wortbasierte Darstellung überführt. Die erkannten Worte werden in einer Indexstruktur gespeichert und können dann für Suchanwendungen verwendet werden.
Die zeitlichen Informationen der gesprochenen und erkannten Wörter/Phrasen werden so verwendet, dass der Nutzer direkt an die relevanten Stellen springen kann. Häufig enthält die Audiominingtechnologie Segmentierungsmodule, die eine Einteilung des Audiostroms in verschiedene Sprecherabschnitte ermöglicht. Alternativ zur reinen Worterkennung existieren Lösungen zur Erkennung von Wortuntereinheiten (Silben, Phoneme) die eine Wortschatzunabhängigkeit bei der Suche ermöglichen.
Erschwert wird die Erkennung von gesprochener Sprache durch Störgeräusche, Dialekte oder starker Spontansprache. Dadurch muss immer damit gerechnet werden, dass keine 100% Transkriptionen geliefert werden. Je nach Qualität der Daten liegen die Erkennungsraten für dokumentarartiges Material zwischen 80% und 92%. Sind perfekte Transkriptionen notwendig, kann optional eine manuelle Nachbearbeitung die Lücke zu den 100% schließen.

Nutzungspotentiale und Einsatzgebiete

Erschließung von audiovisuellen Archivdaten; Suche nach gesprochenen Stichwörtern; Erstellung von Inhaltsübersichten (Tag-Clouds) für Radio- und TV Beiträge; Suchfunktionalität für Archivare, Redakteure, Nutzer von Mediatheken, …

Referenzprojekte

Anbieter und Ansprechpartner

Bilder

AudioMiningSearchGUI