DDR-Tageszeitungen der Staatsbibliothek zu Berlin
Name
DDR-Tageszeitungen der Staatsbibliothek zu Berlin
Projektart
Forschung/Anwendung
Auftraggeber
DFG
Laufzeit/Jahr
2012
Auftragnehmer
Staatsbibliothek zu Berlin, Fraunhofer IAIS, ArchivInForm
Kurzbeschreibung
Das von der DFG geförderte Projekt digitalisiert und erschließt semi-automatisch drei DDR-Tageszeitungen (Neues Deutschland, Berliner Zeitung, Neue Zeit) mit allen Ausgaben von 1946-1990. Gut 400.000 Zeitungsseiten werden dabei gescannt, Scan- und Bildfehler automatisch korrigiert und für die Erschließung zur Verfügung gestellt. Über eine Artikelsegmentierung werden Überschriften, Unterschriften und Artikelblöcke erkannt und auf Artikelebene gruppiert. Dabei werden im automatischen Schritt bereits sehr gute Ergebnisse erzielt. Eine OCR erkennt den Text im Bild und stellt die Artikel als Volltext zur Verfügung. In einer manuellen Nachbearbeitung werden die automatischen Ergebnisse optimiert und anschließend in ein gängiges Austauschformat konvertiert. Die so erschlossenen Ausgaben werden über eine Webseite abrufbar und durchsuchbar sowie zusätzlich als PDF mit Volltext bereitgestellt.
Eingesetzte Technologien
Automatische Scan-/Bildkorrektur, Artikelsegmentierung (Optical Layout Recognition, OLR), optische Zeichenerkennung (Optical Character Recognition, OCR), Artikelarchivexporter (für METS/MOTS/ALTO)
Nutzungspotentiale und Einsatzgebiete
Digitalisierung und Erschließung von Zeitungsarchiven; Verbesserter Zugriff auf Archivinhalte (Durchsuchbarkeit); Redaktionelle Suche; Erstellung kultureller/historischer Sonderausgaben; Recherchesystem für Historiker
Webseiten/Links
- http://www.iais.fraunhofer.de/zeitungserschliessung.html
- http://zefys.staatsbibliothek-berlin.de/ddr-presse
- http://www.heise.de/newsticker/meldung/Berliner-Staatsbibliothek-digitalisiert-DDR-Tageszeitungen-1812537.html
Ansprechpartner
- Fraunhofer IAIS – Ulrich Wernecke (Telefon: 02241 14 2530)
- ArchivInForm, Staatsbibliothek zu Berlin
Ansprechpartner im Medienunternehmen
Dr. Lieder (Email)