Sammlung

Dokumentationsschema

Damit Webarchive bzw. Webarchivsammlungen genutzt und vor allem in der Zukunft nachgenutzt werden können, müssen diese zunächst in Webarchivportalen, Repositorien bzw. Katalogen von Bibliotheken, Archiven und anderen archivierenden Einrichtungen gefunden werden. Neben beschreibenden Metadaten dienen persistente Identifikatoren dazu, die dauerhafte Referenzierung zu ermöglichen und damit die Auffindbarkeit und den Zugriff sicherzustellen.

Um die Vollständigkeit, Qualität und Vertrauenswürdigkeit von Webarchiven als Forschungsquellen bewerten zu können, sind der Kontext der Entstehung, die Auswahlkriterien einer Sammlung, der rechtliche Rahmen, die methodische Beschreibung, die eingesetzten Techniken und Workflows sowie Lücken in der Sammlung zu beschreiben und transparent zu machen.

Im Rahmen des Projekts wurde von den bibliothekarischen Expert*innen und den wissenschaftlichen Mitarbeiter*innen ein gemeinsamer Vorschlag für ein mehrstufiges Dokumentationsschema diskutiert und erarbeitet. Dabei stellen sich grundsätzliche Fragen:

  • Wie kann die Beschreibung einer Sammlung die Nutzung von Webarchiven als Quellen für die Forschung unterstützen?
  • Welches Objektmodell und welche Struktur ist für eine Beschreibung der Korpora sinnvoll?
  • Was sollte für Sammlungen von Webarchiven grundsätzlich und spezifisch für Event-Crawls dokumentiert werden?
  • Welche Metadatenkategorien/Elemente sind bei der Dokumentation aus wissenschaftlicher Sicht für die Nutzung und Nachnutzung von Webarchiven notwendig und sinnvoll?
  • Welche Informationen müssen explizit beschrieben werden?
  • Welche Informationen können implizit in den WARCs enthalten sein?
  • Welche Logs und Reports, die während des Crawlprozesses generiert werden, müssen zur Dokumentation langfristig archiviert werden?
  • Welche Informationen müssen (zusätzlich) intellektuell beschrieben und erfasst werden?
  • Welche Möglichkeiten einer nachträglichen Anreicherung von Metadaten gibt es?

Als zu beschreibende Einheiten wurden identifiziert:

  1. Sammlung von Webarchiven = Collection

  2. Webarchiv = Target, d.h. einzelne Website bzw. Teil einer Website, die in der Regel über einen definierten Zeitraum in mehreren Zeitschnitten gecrawlt und archiviert werden, spezifiziert durch eine oder mehrere URLs, die Seeds

  3. Zeitschnitt = Target Instance, die zu einem Zeitpunkt erstellten und archivierten Kopien

  4. WARCs, Container-Dateien im ISO-Format WARC, die zur Speicherung der Inhalts- und Metadaten der einzelnen Zeitschnitte dienen

  5. Dokumente, einzelne Teile eines Zeitschnitts, z.B. html-Dokumente, aber auch PDFs, Bild- und Videodateien, CSS-Stylesheets, Java-Script u.a.

Eine bibliographische Beschreibung wird auf der Ebene der Sammlung und vor allem auf der Ebene der Webarchive empfohlen. Um sie ggf. in Webarchivportale, in Fachrepositorien, Kataloge von Bibliotheken oder Archive aufzunehmen, sind dabei Standards zu beachten. Dabei stellt Dublin Core einen Minimalstandard dar, ggf. sind umfangreichere Modelle wie MARC, EAD zu verwenden. Eine besondere Herausforderung ist es, die in der Regel sehr kleine Anzahl von Webarchiven in sehr großen Beständen von Bibliotheken und Archiven oder gar Discovery-Systemen auffindbar zu machen. Das Problem kann dabei durch eine entsprechende Codierung der Medienart gelöst werden, über die dann mittels Facetten gefiltert werden kann. Beispielhaft sei dies an einem Katalogisat einer archivierten Website im OPAC der Bayerischen Staatsbibliothek dargestellt.

Zur dauerhaften Referenzierung von Webarchiven wird in der Webarchivierungs-Community ein spezifischer persistenter Identifikator für Webarchive PWID auf der Grundlage von URNs vorgeschlagen. Bisher verwenden Einrichtungen für Webarchive auch etablierte Identifikatoren für digitale Objekte wie DOI, URN:NBNs, ARK etc.

Von besonderer Bedeutung und von vielen Forschenden eingefordert sind die so genannten „web archives provenance metadata“, die auf der Ebene der Sammlung, der einzelnen Targets und der Target Instances gesehen werden. Auf der Ebene der Sammlung sollten sie folgende Punkte beschreiben:

  • organisatorischer Kontext
  • rechtlicher Rahmen
  • Ziel der Sammlung: inhaltliche Beschreibung und Auswahlentscheidungen
  • methodisch-technische Beschreibung der Erstellung der Webarchivsammlung
  • technische Daten wie Datenvolumen, Anzahl der WARCs etc.

Auf der Ebene der einzelnen Webarchive sollten dokumentiert werden:

  • Liste der URLs zu einer Website (Seedlist)
  • Filter zum Ausschluss von bestimmten URLs
  • spezielle Einstellungen des Crawlers (Crawl-Profile)
  • technische Hürden, die das Crawlen bestimmter Inhalte verhindert haben (z.B. dynamisch erzeugte Inhalte)

Auf der Ebene der einzelnen Zeitschnitte sollten die Ergebnisse des Crawlprozesses beschrieben werden:

  • erfolgreich gecrawlte URLs
  • nicht bzw. fehlerhaft gecrawlte URLs

Die Informationen zu den einzelnen Webarchiven und Zeitschnitten müssen in vielen Fällen nicht explizit erhoben werden. Sie werden von den Webarchivsystemen wie dem Web Curator Tool oder den verwendeten Crawlern, z.B. Heritrix, mitgeschrieben. Wo das nicht der Fall ist, wie z.B. beim Webrecorder, sind diese Informationen explizit in Verwaltungstabellen mitzuführen. Die entsprechenden Logs, Reports und Verwaltungstabellen sollten den Forschenden bei Bedarf zur Verfügung gestellt werden können. Sie sollten Teil der Archivpakete zur Langzeitarchivierung von Websites werden.

Im Rahmen des Projekts wurde ein Vorschlag für ein Dokumentationsschema von Webarchivsammlungen detailliert ausgearbeitet. Beispielhaft wurden Werte für die im Rahmen des Projekts erstellten Webarchivsammlungen zur Bayerischen Landtagswahl 2018 und zur Europawahl 2019 aufgenommen.