Medien, Mining, Metadaten - Visionen für die Mediendokumentation - 08.04.2029 - 10.04.2019 () -

Clustern gegen Textchaos

Der Überblick über Dateisammlungen ist oft schwierig: Häufig sind sie groß, wenig strukturiert, redundant und für Außenstehende kaum zu überblicken. Daher ist zu prüfen, ob Softwarelösungen bei der Ordnung großer Dokumentensammlungen helfen können. Eine Möglichkeit zur IT-gestützten Auswertung digitaler Volltexte ist die Nutzung von Methoden aus Computerlinguistik und Information Retrieval. Die vorgestellte Masterarbeit überprüft mit einer zu diesem Zweck entwickelten prototypischen Softwareanwendung und vier dem Hessischen Hauptstaatsarchiv Wiesbaden angebotenen Dateiablagen, ob dieser Ansatz zielführend ist. Die Textdokumente werden dafür in eine maschinell verarbeitbare Form überführt und mit einer Volltextsuche, Versions- und Duplikaterkennung, der Analyse von Worthäufigkeiten und Wortfolgen, Named Entity Recognition, Topic Modelling und Clustering untersucht. Es wird geprüft, wieviel jede dieser Methoden zum Informationsgewinn beiträgt und auf was für Bestände sie anwendbar ist. Außerdem wird kurz vorgestellt, welche vergleichbaren Methoden für Audio- und visuelle Quellen genutzt werden könnten.