LandmarkNER: Named Entity Recognition für die Erkennung von Landmarken in Videos
LandmarkNER: Named Entity Recognition für die Erkennung von Landmarken in Videos
Zur Unterstützung der inhaltlichen Beschreibung von Videos soll Bilderkennung eingesetzt werden, um Bauwerke von politischer, kultureller oder geografischer Bedeutung (Landmarken) in Videos des Bayerischen Rundfunks (BR) zu erkennen. Zur Anpassung an die Bedürfnisse des BR soll die Bilderkennungssoftware mit maßgeschneiderten Trainingsdaten gefüttert werden. Da das Fernseharchiv des BR viele Videos enthält, die als Trainingsdaten dienen können, wurde eine Teilautomatisierung mittels Natural Language Processing (NLP) entwickelt. Um Landmarkennamen in Texten zu finden, wurde ein eigenes Named Entity Recognition Modell trainiert. Dieses ermöglicht es, Landmarkennamen aus verknüpften Texten (Untertiteln und Bildinhaltsbeschreibungen) zu extrahieren. In einem Proof of Concept konnte erfolgreich gezeigt werden, dass damit eine automatisierte, multimodale Erkennung von Landmarken aus Videos des BR möglich ist.
Langfristig kann dies die Arbeit von Dokumentar:innen erleichtern, indem es sie bei der Beschreibung von Videoinhalten unterstützt.