Epistemologie

Wissenschaftstheoretische Einordnung von Webarchiven

Webarchivsammlungen sind digitale Archive von genuin digitalen Daten. Als solche stellen sie Forscherinnen und Forscher vor eine Reihe von Herausforderungen, die in ihrem epistemologischen Status begründet liegen, und die wissenschaftstheoretische Reflexion und methodologische Antworten erfordern. Die Situation des Online Web ist durch Überfülle einerseits und Flüchtigkeit der Inhalte andererseits geprägt. Phänomene wie das Verschwinden von referenzierten Webseiten (Link Rot) oder die Veränderung des durch einen Link referenzierten Inhalts (Content Drift) beschreiben damit einen Teil der Flüchtigkeit von Evidenz, die prägend für das digitale Zeitalter ist1. Webarchivierung ist eine Antwort auf diese Herausforderung, zugleich aber ein archivarisches Vorgehen, dessen Produkte epistemologisch neu eingeordnet werden müssen. Das archivierte Web unterscheidet sich nämlich in seiner Beschaffenheit durchaus vom Online Web und geht nicht etwa in einer lokalen Kopie desselben auf.2 Vielmehr kennzeichnen Merkmale wie Unvollständigkeit, zeitliche Inkohärenz und Schwierigkeiten der Etablierung von Authentizität das Offline Web. Der Erstellung eines Webarchivs gehen Selektions- und Gewichtungsprozesse voraus, die jenen nicht unähnlich sind, die vordigitalen Archiven zugrunde liegen. Insofern lässt sich auch das digitale Archiv durch die von Aleida Assmann3 geprägte miteinander korrespondierende Dualität von Archiv und Kanon fassen. Im Unterschied zu vordigitalen Kanons unterliegen aber sowohl Online-Inhalte als auch das digitale Archiv der algorithmischen Ordnung der zu archivierenden Inhalte. Mehr noch, die Bildung des Archivs vollzieht sich nicht alleine durch menschliche Auswahlprozesse, sondern es wird ebenso durch Eigenschaften der technischen Verfahren (z.B. die Zufallsläufe eines Webcrawlers) geformt. Im Projekt wurde dieses technisch mediierte Wechselspiel von Archiv und Kanon an mehreren Stellen vertieft (darunter (Donig, Eckl und Rehbein 2021) und (Donig et al. 2021a)). Die Frage der Unvollständigkeit des Archivs hat dabei eine zunehmend zentralere Rolle eingenommen. Um Formen von Unvollständigkeit besser differenzieren zu können, wurden diese mit Hilfe des Konzepts der „Blinden Flecken“ systematisiert, das Merkmale des Life Web beschreibt, die bei der Erstellung des Archivs nicht eingeschlossen wurden. Davon grenzen wir Formen der „Stille“ ab, latente Merkmale, die zwar im Archiv präsent sind, die aber spezifischer Methoden bedürfen, um erforschbar zu werden. (Der Gedanke grundlegend formuliert in (Donig et al. 2021a)).
Zugleich wurden im Projekt in zwei Richtungen Lösungen für die identifizierte Unterkontextualisierung von Webarchivinhalten erarbeitet. Der Dimension der Unvollständigkeit tritt das Projekt durch einen Vorschlag für ein Dokumentationsschema entgegen, das die dringend notwendige Einordnung des Archivaufbaus hinsichtlich fehlender Vollständigkeit sowie eines breiteren Sets an Kontextinformationen leistet, die für die historische Einordnung des Inhalts einer Webarchivsammlung entscheidend sind. Um Opazität insbesondere in zeitlicher Hinsicht zu begegnen, ist mit Warc2Corpus ein prototypisches Instrument entstanden, mit dem im großen Umfang bislang latente, unterstrukturierte Informationen (wie dokumentierter Entstehungszeitpunkt, Verfassende usw.) granular extrahiert werden können. Diese können nun nicht nur für Analysezwecke genutzt werden, sondern auch zur Augmentierung der Beschreibungsdaten des Archivs herangezogen werden. In Methoden des Distant Reading hat das Projekt schließlich eine Antwort auf die Frage gefunden, wie latente Merkmale im Archiv für die Forschung sichtbar und damit analysierbar gemacht werden können (Donig et al. 2021a), (Donig et al. 2021b).


  1. Rosenzweig, Roy. „Scarcity or Abundance? Preserving the Past in a Digital Era“. The American Historical Review 108, Nr. 3 (1. Juni 2003): 735–62. https://doi.org/10.1086/ahr/108.3.735 ↩︎

  2. Brügger, Niels. „Understanding the Archived Web as a Historical Source“. In: The SAGE Handbook of Web History, hgg. von Niels Brügger und Ian Milligan, 16–29. Los Angeles, Calif. u.a.: SAGE, 2018. ↩︎

  3. Assmann, Aleida. „Speichern oder Erinnern? Das kulturelle Gedächtnis zwischen Archiv und Kanon“. In: Speicher des Gedächtnisses: Bibliotheken, Museen, Archive (2) : Die Erfindung des Ursprungs, die Systematisierung der Zeit, herausgegeben von Moritz Csáky und Peter Stachel, 2:15–30. Orte des Gedächtnisses. Wien: Passagen, 2000. ↩︎