Dokumentenklassifikation

Einordnung von Textdokumenten in vorgegebene Klassen oder Kategorien

Funktionsweise

Verfahren zur Dokumentenklassifikation basieren heute durchweg auf Maschinellen Lernverfahren. Dabei wird eine Trainings-Stichprobe von Dokumenten benötigt, welche manuell mit einer oder mehreren Kategorien annotiert sind. Zur Vorbereitung werden die Dokumente in Sätze und einzelne Wörter zerlegt. Beim Training ermitteln die Klassifikationsverfahren den statistischen Zusammenhang der Worte mit den annotierten Kategorien und erstellen ein Modell, welches die Wahrscheinlichkeit der Kategorien des Dokuments aus den Worten errechnet. Mit diesem Klassifikationsmodell können dann neue Texte klassifiziert werden.
Es gibt eine große Anzahl unterschiedlicher Klassifikationsverfahren. Dabei kann nicht nur der Inhalt eines Dokuments sondern auch beispielsweise dessen Genre klassifiziert werden. Wichtig ist, dass sich die Zusammensetzung der Trainingsdaten nicht wesentlich von den Eigenschaften der zu klassifizierenden Dokumente unterscheidet. Die Klassifikationsgenauigkeit hängt auch von der verwendeten Klassifikationshierarchie ab, da sich bei sehr vielen Klassen häufig unscharfe Abgrenzungen ergeben. Typischerweise erreicht man bei einigen hundert Klassen Genauigkeiten von 80% bis 95%. Neuere Ansätzen verbessern die Genauigkeit durch die Verwendung von zusätzlichen Merkmalen, welche durch die statistische Analyse großer, nicht-annotierter Textsammlungen gewonnen werden können (z.B. Topic Models und Deep Learning).

Nutzungspotentiale und Einsatzgebiete

Erschließung von textuellen Archiven; Suche nach Dokumenten zu einer inhaltlichen Kategorie; Suchfunktionalität für Archivare, Redakteure, Nutzer von Mediatheken; Analyse von Diskussionsseiten und Foren nach inhaltlichen Kategorien; Identifikation von beleidigenden/radikalen Beiträgen

Referenzen

  • Deutsche Digitale Bibliothek: http://www.iais.fraunhofer.de/ddb.html Kategorisierung von Inhalten.
  • Überregionale Deutsche Tageszeitung: Kategorisierung unangemessener Inhalte in Benutzerforen.

Anbieter