Frühjahrstagung 2025 Medien-Archiv-Sphären - Nachhaltigkeit und Informationsethik in der Mediendokumentation - 05.05.2025 - 07.05.2025 (Biosphäre Postdam) -

Treffer statt Trefferliste: Wie KI-Suche Medienarchive revolutioniert

Medienarchive verwalten heute umfassende Datenbestände. Allein in der Datenbank PowerSearch hält die APA aktuell 1,4 Milliarden Datensätze. Dabei werden nicht nur die Meldungsströme der APA selbst, sondern Archive unserer Kunden, wie das der Presse-Monitor GmbH oder des DIZ München verwaltet. Monatlich kommen 92 Millionen neue Einträge hinzu, während 283 Millionen aktualisiert und 13 Millionen gelöscht werden. Diese schiere Datenmenge stellt eine wertvolle Kernressource der APA dar, deren Erschließbarkeit ein wesentlicher Erfolgsfaktor ist. Denn unsere Kund:innen und Redakteur:innen sind auf schnelle, unkomplizierte und präzise Recherchen angewiesen. Die traditionelle, lexikalische Suche reicht in vielen Fällen nicht mehr aus, um den notwendigen Kontext zu verstehen und relevante Inhalte zu finden. Vor allem, wenn es um hochkomplexe Suchanfragen wie die Erstellung eines Pressespiegels geht, benötigen wir eine Lösung, die den Informationsreichtum und die Struktur der Daten vollständig erschließen kann. Der Ansatz einer semantischen Suche geht weit über herkömmliche Suchansätze hinaus. Diese Lösung beruht auf eigens trainierten und verfeinerten KI-Modellen, einem selbst entworfenen Textindex und einer maßgeschneiderten Vektordatenbank. Die Entscheidung, diesen Weg zu gehen, anstatt auf bestehende Lösungen zurückzugreifen, basiert auf unseren spezifischen Anforderungen an Leistung und Anpassbarkeit. Erste Schritte zeigten schnell, dass vorgefertigte Lösungen weder die Performance noch die Flexibilität boten, die wir brauchten. Nach weiteren Entwicklungsschritten gelang es uns ein System zu schaffen, das die Offenheit einer semantischen Suche mit der Exaktheit einer lexikalischen Suche kombiniert. Dieses System übertraf unsere Erwartungen in Bezug auf Effizienz und Leistungsfähigkeit. Das Besondere an der semantischen Suche in Medienarchiven wie jenem der APA besteht in ihrer Spezialisierung und Anpassbarkeit auf den deutschen Sprachraum und kundenspezifische Inhalte, gepaart mit dem Anspruch hochrelevante Ergebnisse zu liefern. Beispielsweise ermöglicht uns der Zugriff auf über 20 Jahre an Nachrichtenströmen eine umfassende semantische Suche, die eine präzise und kontextuelle Aufbereitung von Inhalten erlaubt. Erfahrungen und Ergebnisse, die in diem Vortrag präsentiert werden:
• Anforderungen an die semantische Suche im Medienarchiv der APA;
• Welcher Ansatz und welche Technologien werden verwendet;
• Welche Hindernisse lauern auf dem Weg bis zur Implementierung und Nutzbarkeit durch die User;
• Welche technischen und sonstigen Rahmenbedingungen sind für den Einsatz von semantischer Suche in einem Medienarchiv nötig;
• Erfahrungen und Feedback der User.