Identifikation und Kategorisierung von Eigennamen im Text
Funktionsweise:
Eigennamen von Entitäten, d.h. Namen von Personen, Orten, Organisationen, Produkten, medizinische Fachbegriffe, etc., sind wesentlich für den Inhalt von Medientexten. Die Eigennamenerkennung (Named Entity Recognition) zielt darauf, Eigennamen in Texten zu erkennen und einer Kategorie (Person, Ort, …) zuzuordnen. In der Regel werden heute statistische Modelle zur Eigennamenerkennung verwendet. Sie benötigen eine Sammlung von Trainingsdokumenten, in denen die Wörter mit den Eigennamenkategorien annotiert sind. Die Verfahren analysieren die Reihenfolge der Worte und deren Korrelation mit den Eigennamenkategorien und verwenden Zusatzinformation, wie etwa die Wortendungen und die syntaktischen Wortarten. Zur Anwendung müssen Dokumente mit diesen Zusatzinformationen versehen werden und das Verfahren prognostiziert die wahrscheinlichste Eigennamenkategorie jedes Wortes.
Die Eigennamenerkennung wurde schon früh auf Pressetexte angewendet. In letzter Zeit rücken Webinhalte in den Vordergrund, etwa Blogs und Forenbeiträge. Die Eigennamenkategorien können der Domäne angepasst werden, erfordern aber jeweils entsprechende Trainingsdaten. Die Performanz der Eigennamenerkennung hängt von Art und Umfang der Trainingsdaten ab. Entscheidend ist ebenfalls, dass sich die statistische Zusammensetzung der Trainingsdokumente nicht wesentlich von den zu prognostizierenden Dokumenten unterscheidet. Im Deutschen sind derzeit je nach Eigennamentyp etwa 80%-95% Genauigkeit erzielbar. Neuere Verfahren, etwa Deep Neural Networks, verbessern die Ergebnisse durch die Verwendung von Informationen in nicht manuell annotierten Texten.
Häufig sind Eigennamen nicht eindeutig identifizierbar, z.B. weil es mehrere Personen mit dem gleichen Namen gibt oder verschiedene Schreibweisen und Abkürzungen verwendet werden. Hat man eine Datenbank mit Beschreibungen der Entitäten zur Verfügung, z.B. Artikel der Wikipedia, so kann man eine automatische Zuordnung erstellen, indem man die Worte der Beschreibung mit dem Kontext des Namens in einem Dokument vergleicht. Hierbei wird auch erkannt, ob die Entität überhaupt in der Datenbank erfasst wurde. Diese Verfahren bilden die Grundlage zur Disambiguierung und Verlinkung von Begriffen.
Nutzungspotentiale und Einsatzgebiete:
Erschließung von Textarchiven; Suche nach Eigennamen zusammen mit anderen Begriffen; Suchfunktionalität für Archivare, Redakteure, Nutzer von Mediatheken, …; Grundlage für die Erkennung von Relationen zwischen Entitäten.
Referenzen:
- Deutsche Digitale Bibliothek: http://www.iais.fraunhofer.de/ddb.html Erkennung von Eigennamen.
- IAIS Quote: http://www.iais.fraunhofer.de/quote-app.html Erkennung von Personennamen in Pressetexten, deren Disambiguierung und deren Zuordnung zu wörtlichen Zitaten.
Anbieter:
- Fraunhofer IAIS (http://www.iais.fraunhofer.de/smartsemantics.html) Dr. Dirk Hecker (Dirk.Hecker@iais.fraunhofer.de, 02241-14 1509)