Sammlung

Korpora

Um anhand einer politikwissenschaftlichen Fallstudie die forschungsbezogene Anwendbarkeit der Verfahren und Tools aus den Digital Humanities auf Webarchive zu überprüfen, wurden im Projekt zwei Event-Crawls, zur Landtagswahl in Bayern 2018 und zur Europawahl 2019, durchgeführt.

Die Änderungen im Urheberrechtsgesetz, die 2018 in Kraft getreten sind und die Vervielfältigungen urheberrechtlich geschützter Werke für Text und Data Mining zum Zwecke der nichtkommerziellen wissenschaftlichen Forschung zulassen, haben die Erstellung der Webarchivsammlungen auch ohne die explizite Einholung der Genehmigung der Rechteinhaber*innen ermöglicht. Jedoch dürfen die Daten nur dem Projektteam für die gemeinsame Forschung und einzelnen Dritten zur Überprüfung der Forschung zugänglich gemacht werden. Nach Abschluss der Forschung dürfen die Daten dauerhaft aufbewahrt, aber nicht zugänglich gemacht werden.

Der erste Event-Crawl zur Bayerischen Landtagswahl 2018 begann schon kurz nach dem Start des Projekts. Es wurde auf die Standardworkflows der BSB gesetzt. Zu den von fachwissenschaftlicher Seite vorgeschlagenen Websites der Akteure (Parteien und Spitzenkandidat*innen) sowie Medienwebsites wurden wöchentlich vollständige Zeitschnitte mit dem Web Curator Tool erstellt und als WARC-Dateien abgespeichert. Ebenso wurden von den Social Media-Auftritten der Akteure bei Twitter und Facebook mittels der Webanwendung Webrecorder wöchentlich Archive erzeugt und ebenfalls in WARC-Dateien abgespeichert.

Aufbauend auf den Erfahrungen des ersten Event-Crawls konnte dann die Konzeption und Durchführung des zweiten, wesentlich umfangreicheren Event-Crawls zur Europawahl 2019 erfolgen. Zunächst wurden von der Fachseite die wissenschaftlichen Anforderungen an den Aufbau eines Korpus zur Europawahl 2019 aufgestellt, insbesondere wurden die Auswahl der zu archivierenden Ziele, Beginn und Ende der Crawls und die Frequenz festgehalten. Parallel dazu hat das Team die Erfahrungen mit dem ersten Crawl evaluiert. Es wurden Alternativen zum Standardvorgehen diskutiert, wie Data-Scraping über APIs und die Verwendung verschiedener Crawler ohne Workflowsteuerung, die Nutzung des Webarchiv-Dienstes Archive-It oder Akquisition der Daten vom Internet Archive. Schlussendlich wurden die in der BSB etablierten bzw. beim Event-Crawl zur Landtagswahl 2018 erprobten Tools Web Curator Tool und Webrecorder verwendet, da beide das Standard-Archivformat WARC verwenden, für das es bereits Datenextraktions- und Analysetools gibt. Auch die besseren Möglichkeiten der Steuerung und Qualitätskontrolle der Crawls unter Berücksichtigung der Anforderungen der Fachwissenschaftler*innen sprachen für diesen Ansatz.

Ein weiterer Diskussionspunkt bei der gemeinsamen Konzeption des Event-Crawls war die Anzahl der Targets, die Häufigkeit der Crawls im Kontext der verfügbaren personellen und technischen Ressourcen für die Steuerung, Qualitätskontrolle und Dokumentation der Crawl-Prozesse. Unser Werkstattbericht beschreibt den Aufbau der Webarchivsammlung zur Europawahl 2019 im Spannungsverhältnis zwischen wissenschaftlichen Anforderungen und technischer Umsetzung.

Ein Ziel des Projekts war es, die Anwendbarkeit von Digital Humanities Methoden auf die proaktiv im regulären Betrieb der Webarchivierung in Gedächtnisorganisationen aufgebauten Sammlungen zu prüfen. Zu diesem Zweck wurde auch ein Teilkorpus der Bavarica-Sammlung der Bayerischen Staatsbibliothek (Websites mit Bezug zu Bayern) gebildet, um Verfahren zum computergestützten Bestandsaufbau zu konzipieren und zu erproben. Dazu wurden alle Zeitschnitte der Bavarica-Sammlung ausgewählt, die im zweiten Halbjahr 2018 gecrawlt wurden. Für die Archivierung und Bereitstellung dieser Websites hat sich die BSB die Genehmigung der jeweiligen Rechteinhaber*innen eingeholt. Diese Genehmigung deckt aber die Veröffentlichung des daraus gebildeten Korpus als Forschungsdaten nicht ab.