Hybride Frühjahrstagung 2022 Fit for Files - Medieninformation zwischen dokumentarischer und künstlicher Intelligenz - 25.04.2022 - 27.04.2022 () -

Wo spielt hier die Musik? Wie Musikerkennung mit Künstlicher Intelligenz die dokumentarische Arbeit im DRA unterstützt

Wo spielt hier die Musik? Wie Musikerkennung mit Künstlicher Intelligenz die dokumentarische Arbeit im DRA unterstützt

Als historisches Archiv der ARD steht das Deutsche Rundfunkarchiv (DRA) im Arbeitsalltag vor einer Reihe besonderer Herausforderungen. Eine davon ist die nachträgliche Aufklärung der Rechtesituation von Fernsehinhalten der ehemaligen DDR. Ist ein Musikstück in einem Beitrag zu hören, ist für die Rechtedokumentation und -bewertung eine aufwendige Klärung der Musikrechte erforderlich. Mitunter enthalten die Metadaten aber keine Informationen darüber, ob Musik enthalten ist oder nicht, wodurch der Aufwand für die manuelle Prüfung teils sehr hoch und fehleranfällig ist. Um diesen Aufwand zu reduzieren, entstand der Wunsch nach einer automatisierten Musikerkennung, die zuverlässig Auskunft darüber geben kann, ob in einem Archivbeitrag Musik – in welcher Form auch immer – enthalten ist oder nicht. Anstatt hier eine komplett neue Lösung zu entwickeln, schaute man sich in der Welt der Open-Source-Tools um und stieß schnell auf das so genannte „YAMNet“, ein Projekt aus der Forschungsabteilung des Internetriesen Google. YAMNet ist in der Lage, mehr als 500 verschiedene Audioklassen mehr oder weniger gut zu erkennen, und wurde dafür mit den Audios von Millionen von Videos der Plattform YouTube trainiert. Für die Verwendung im DRA musste somit kein aufwendiges eigenes KI-Training mehr erfolgen. Mit YAMNet gelang es dem Team, automatisiert und zuverlässig zu erkennen, ob sich Musik in einem Beitrag befindet, und diese anhand von Timecodes zu verorten. Nach erfolgreichem Proof of Concept wird der YAMNet-Musikerkennungs-Workflow derzeit in die Geschäftsprozesse des DRA integriert. In Zukunft soll die Musikerkennung noch erweitert werden, so dass auch der jeweilige Song (das abgespielte Werk) und die Aufnahme erkannt werden können. Hier plant das DRA Technologien des Audio-Fingerprinting zum Einsatz zu bringen.