Webarchive DH DFG

Projektbeschreibung

Gesellschaftliches, politisches, soziales, kulturelles und wissenschaftliches Handeln manifestiert sich heute zu großen Teilen im World Wide Web. Dieses zu archivieren, ist zu einer neuen Aufgabe der Gedächtnis- sowie Forschungsinstitutionen geworden, um relevante Inhalte im Internet als Quellenmaterial für die gegenwärtige und zukünftige Forschung dauerhaft zu sichern und für die wissenschaftliche Nutzung zugänglich zu machen. Neben dem „Close Reading“ archivierter Websites mittels möglichst authentischer Darstellungen in speziellen Viewern wie der OpenWayback eröffnen unterschiedliche Analyse- und Visualisierungwerkzeuge aus dem Bereich der Digital Humanities Möglichkeiten zu einem „Distant Reading“ großer Datenmengen.

Jedoch sind archivierte Websites eine vergleichsweise neue und für viele Forschende noch schwer zugängliche und kompliziert nutzbare Quellengattung. Das Ziel dieses explorativen Projektes war es, technische Lösungen für eine bessere Erschließung von Webarchiven prototypisch aufzuzeigen und zu testen. Dazu wurde die Anwendbarkeit von Methoden der Digital Humanities für den Aufbau und die wissenschaftliche Nutzung von Webarchiven erprobt.

Für eine politikwissenschaftliche Fallstudie wurden Korpora mit archivierten Websites zu den bayerischen Landtagswahlen 2018 und den Europawahlen 2019 erstellt.

Es wurden Verfahren entwickelt und evaluiert, die den Prozess der intellektuellen inhaltlichen Auswahl zum Zwecke des Bestandsausbaus durch Verfahren zur Darstellung von Linknetzwerken beziehungsweise des Link Mining unterstützen können.

Im Rahmen von Veröffentlichungen und Vorträgen wurden Perspektiven für die wissenschaftliche Nutzung von Webarchiven präsentiert und weiterentwickelt. Die gezielte Extraktion und Aufbereitung von Daten aus Webarchiven bildete einen Schwerpunkt des Projekts, dazu wurde als Ergänzung zu bereits bestehenden Lösungen, wie Archives Unleashed Toolkit und ArchiveSpark, ein eigenes Tool (warc2corpus) entwickelt, das eine spezifische Datenextraktion für individuelle Websites ermöglicht.

Die extrahierten Daten konnten in unterschiedlichen Anwendungsszenarien im Rahmen der politikwissenschaftlichen Fallstudie ausgewertet werden. Dabei wurde der Einsatz von Einsteigerwerkzeugen (Gephi, Voyant Tools) demonstriert und dokumentiert wie auch das komplexe Verfahren des Topic Modeling eingesetzt. Für eine wissenschaftliche Auswertung von Webarchiven ist die Dokumentation des Kontextes deren Entstehung sowie von rechtlichen und technischen Parametern des Archivierungsprozesses notwendig. Hierzu wurde ein entsprechendes Dokumentationsschema entwickelt und beispielhaft angewendet.

Wissenschaftstheoretische Fragen, die sich aus der Arbeit mit Webarchiven ergeben, wurden sowohl aus politikwissenschaftlicher als auch aus Perspektive der Digital Humanities beleuchtet und tragen so zu einem besseren Verständnis dieser neuen Quellengattung bei. Die im Projekt entstandenen Software-Entwicklungen sind auf GitHub zur Nachnutzung veröffentlicht.

Das Projekt

„Methoden der Digital Humanities in Anwendung für den Aufbau und die Nutzung von Webarchiven“

Förderung durch DFG

Laufzeit 2018-2021

Partner

  • Bayerische Staatsbibliothek
  • Universität Passau
    • Jean-Monnet-Lehrstuhl für Europäische Politik
    • Lehrstuhl für Digital Humanities

Kontakt

Universität Passau:
Lehrstuhl Digital Humanities,
Prof. Dr. Malte Rehbein
[ OBFUSCATED ]
Bayerische Staatsbibliothek:
Dr. Astrid Schoger
[ OBFUSCATED ]