AustroBERT – The Power of Trusted Media Data
AustroBERT - The Power of Trusted Media Data
Ein neuer Workflow
Die Austria Presse Agentur hat erfolgreich ein KI Modell "AustroBERT" von Grund auf trainiert, mit dem Qualitätsanspruch einer Produktionsumgebung. Es ist ein Foundation Textmodell in Transformer Topologie, das ausschließlich mit selbst geschriebenen journalistischen Artikeln der Austria Presse Agentur im hausinternen Rechenzentrum trainiert wurde. Als Foundation Modell kann es auf unterschiedlichste Aufgaben der Textkategorisierung gefinetuned werden.
Herausforderungen bei der Verwendung offen verfügbarer Foundation-Modelle für Finetunes können rechtlicher und ethischer Natur sein: mangelnde Transparenz der Datenherkunft, Urheberrechtsfragen der Trainingsdaten oder Umgang mit sensiblen Informationen. Hier wurde mit AustroBERT eine Lösung geschaffen, die auf einer rechtlich gesicherten Datenhoheit basiert und beim Trainingsprozess keinerlei externe Abhängigkeiten hat.
Das Pretraining von Foundation Modellen mag aufgrund der typischerweise hohen benötigten Datenmengen und kräftiger Trainingshardware schwierig erscheinen. Daher ist die Vorbereitung und die Bereinigung des Datenmaterials ein essentieller Schritt. So kann die vergleichsweise quantitativ geringe Trainingsdatenmenge und geringe Trainingshardware durch hohe Datenqualität kompensiert werden.
Ein Vergleich der Metriken von ausgewählten Downstream Tasks der Medienlandschaft zeigt, dass die Finetunes von AustroBERT den Finetunes von offen verfügbaren Modellen - wie zum Beispiel bert-german-base-cased oder multilingual-e5 - qualitativ ebenbürtig sind.







