Analysen

Einsteigerwerkzeuge - Gephi

Die nachfolgende Analysebeschreibung zeigt anhand von Beispieldaten aus dem DFG-Projekt „Methoden der Digital Humanities in Anwendung auf Webarchive“, welche computergestützten Analysen mit der Visualisierungssoftware Gephi auf der Basis von Netzwerkdaten aus Webarchiven angestellt werden können. Datenbasis für die Analyse sind abgeleitete Datensets, wie sie mit Archives Unleashed Toolkit aus den ursprünglichen WARC-Dateien erzeugt wurden. Die Werkzeuge und Verfahren sind so ausgewählt, dass sie keine besonderen technischen Kenntnisse oder Erfahrung mit computergestützten Analysemethoden voraussetzen.

Im Projekt „Methoden der Digital Humanities in Anwendung auf Webarchive“ wurde ein sogenannter „Event-Crawl“ zur Europawahl 2019 durchgeführt. Dabei wurden Websites und Social Media Auftritte von Parteien, Kandidat*innen und Medien im Vorfeld der Europawahl in regelmäßigen Abständen erfasst und archiviert. Für die vorliegende Analyse wurden mit dem Archives Unleashed Toolkit aus den Websites der Parteien AfD, CDU, Bündnis90/Die Grünen und SPD, die im Rahmen des Event Crawls archiviert wurden, Links extrahiert.1 Datenbasis war jeweils die letzte archivierte Version der Websites unmittelbar vor der Wahl in der Zeit vom 22. bis 26. Juni 2019. Die Linkderivate wurden im CSV-Format gespeichert und enthalten für jeden Link das Crawldatum, Ausgangs- und Zieldomain sowie die Häufigkeit, mit der der Link vorkommt. Diese Tabelle kann mit der Option „Edge Table“ in Gephi importiert und als Graph visualisiert werden. Ein Graph besteht aus einzelnen Elementen, sogenannten Knoten, und Verbindungen zwischen den Knoten, sogenannten Kanten. In unserem Beispiel stehen die Knoten für verschiedene Domains, während die Kanten Links zwischen den Domains repräsentieren.

Tabelle 1 präsentiert einige statistische Werte zu den einzelnen Datensets, die mit einem Tabellenkalkulationsprogramm ermittelt wurden. Die Website der Grünen verlinkt demnach auf die wenigsten Domains. Im Vergleich mit den Websites der SPD und der CDU verlinken die Websites der Grünen und der AfD zudem deutlich seltener mehr als einmal auf externe Domains.2 Um die Netzwerkvisualisierung übersichtlicher zu gestalten, wurde eine Mindesthäufigkeit (2 für www.afd.de und www.gruene.de, 5 für die übrigen Websites) festgelegt, ab der die Links in die Auswertung einbezogen werden. Intrinsische Links, bei denen eine Domain auf sich selbst verweist, sind für eine Analyse wenig interessant und wurden verworfen. Solche einfachen Vorabfilterungen können abhängig von der Datenmenge auch in Tabellenkalkulationsprogrammen vorgenommen werden.

Partei (Domain) Anzahl verlinkter Domains Anzahl Domains, die mehr als einmal verlinkt sind Maximale Anzahl von Links pro Domain
AfD (www.afd.de) 230 74 19557
Bündis90/DieGrünen (www.gruene.de) 136 38 240
CDU (www.cdu.de) 388 332 7831
SPD (www.spd.de) 282 267 7445
Tabelle 1: Einige Kennzahlen zur Beschreibung der analysierten Datensets, erzeugt mit einem Tabellenkalkulationsprogramm.

Gephi erlaubt es, die Darstellung des Graphen nach dem Import weiter zu konfigurieren: So können die Domainnamen eingeblendet oder die Anzahl der (eingehenden) Links über die Knotengröße und Kantenstärke visualisiert werden (s. Abbildung 1). Verschiedene Layoutalgorithmen dienen dazu, die einzelnen Knoten übersichtlich anzuordnen.

Bei der Netzwerkvisualisierung mit Gephi wird deutlich, wie sehr die Datengrundlage durch die Crawlkonfiguration beeinflusst ist. In Fall des Event-Crawls zur Europawahl 2019 wurde entschieden, sich strikt auf die Parteiwebsites zu beschränken und externe Ressourcen, die auf den Websites verlinkt sind, nicht zu erfassen. Das Netzwerk, das sich aus den archivierten Websites rekonstruieren lässt, bildet entsprechend nur einen sehr kleinen Ausschnitt des Gesamtnetzwerks ab, in das die Websites im Live Web eingebettet sind. Aus diesem Grund ist die Berechnung zusätzlicher Metriken zur Beschreibung des Netzwerks, wie sie Gephi ermöglicht, hier wenig sinnvoll.

Anhand der Netzwerkvisualisierungen wird deutlich, dass alle vier Parteien auf ihren Parteiwebsites vor allem auf die sozialen Medien und ihre parteieigenen Websites wie Shop, Partei-TV oder Unterorganisationen der Partei verlinken. Die CDU verweist auf ihrer Website neben Facebook, Instagram und Twitter sehr häufig auf cdu.tv, den eigenen YouTube-Kanal. Auch andere eigene Dienste wie Shop, Multimedia-Datenbank und internes Mitgliedernetzwerk der CDU werden häufig verlinkt. Auf der Website der SPD ist der Shop die häufigste Verlinkung noch vor Facebook, Twitter, Instagram und YouTube. Es folgen parteieigene Seiten zu Aktionen und Kampagnen der SPD. Auch bei den Grünen sind die sozialen Medien Twitter, Facebook und Instagram besonders präsent. Zudem wird häufig auf die Website der Grünen-Fraktion im Bundestag, der Grünen Jugend und der Heinrich-Böll-Stiftung verwiesen. Als einzige Partei verweisen die Grünen auch häufig auf Websites von Parteimitgliedern, was jedoch auch auf die geringe Datenbasis im Vergleich zu den anderen Parteien zurückzuführen sein könnte. Nicht zuletzt sind auch auf der Website der AfD die sozialen Medien Twitter, YouTube, Facebook und Instagram besonders präsent, zudem werden das Mitgliedermagazin AfD Kompakt sowie der eigene Shop häufig verlinkt.

Abbildung 1: Ausgehende Links der Domain www.gruene.de zum Zeitpunkt der Europawahl 2019, visualisiert als gerichteter Graph. Links, die weniger als einmal vorkommen, werden der Übersichtlichkeit halber nicht dargestellt.

Ausblick

Um die Graphen übersichtlicher zu gestalten, wurden bei der Datenextraktion die einzelnen Linkziele nur nach Domain, nicht aber nach URL aufgeschlüsselt. Gerade bei Links, die auf Social Media Plattformen verweisen, sind die Domainnamen allein jedoch wenig aussagekräftig: So bleibt unklar, ob die Akteure auf ihre eigenen Profile oder Beiträge auf der jeweiligen Plattform verweisen, oder ob sie sich auf geteilte Hashtags und Beiträge von anderen Nutzer*innen beziehen. Um diese Frage zu beantworten, wäre eine Kombination aus intellektuellen und computergestützten Analyseverfahren denkbar. Die extrahierten Links könnten nach der Extraktion manuell einer bestimmten Kategorie zugeordnet werden (Links auf eigene Publikationen, Links auf externe Publikationen), die als Attribut der Kanten in die automatische Netzwerkanalyse einfließt. Eine genauere Analyse der Links auf der Ebene der URL findet sich außerdem hier. Diese Auswertung nutzt ebenfalls Gephi, verwendet für die Vorverarbeitung und Filterung der Daten aber ein R-Skript und setzt damit Programmierkenntnisse voraus.


  1. Die Wahl fiel auf diese Parteien als Beispiele, da sie im Sinne des postfunktionalistischen Cleavage-Ansatzes unterschiedliche Positionen auf einer „klassischen, ökonomisch determinierten Links-Rechts-Achse als Inverted-U-Curve“ (Anders et al. 2018) abbilden. So befürworten Mainstream-Parteien die europäische Integration eher als die Parteien am Rand des politischen Spektrums. Mittlerweile findet aber eine zunehmende Überlagerung dieses klassischen ökomischen Cleavage durch eine soziokulturelle Konfliktdimension statt. Hooghe und Marks beschreiben diese mit den Polen GAL, für green/alternative/libertarian (grün/alternativ/liberal), und TAN, für traditionalism/authority/nationalism (Traditionalismus/Autorität/Nationalismus). Bündnis 90/Die Grünen und die AfD sind klar auf den beiden Seiten des GAL/TAN-Cleavages verortet. CDU und SPD hingegen können als klassische Mainstream-Parteien bezeichnet werden. Siehe dazu Lisa H. Anders, Henrik Scheller und Thomas Tuntschew, „Die Politisierung der Europäischen Union und die Rolle der Parteien. Konzeptionelle Grundlagen, Desiderate und Perspektiven“, in: dies. (Hg.): Parteien und Politisierung der Europäischen Union, Wiesbaden 2018, S. 1-38.; Liesbet Hooghe und Gary Marks, „European Integration and Democratic Competition“ in: FES Europäische Politik, Nr. 3 (2004); Mark Aspinwall, „Preferring Europe: Ideology and National Preferences on European Integration“ in: European Union Politics 3, Nr. 1 (2002), S. 198-212.; Liesbet Hooghe und Gary Marks, „A Postfunctionalist Theory of European Integration: From Permissive Consensus to Constraining Dissensus“ in: British Journal of Political Science 39, Nr. 1 (2009), S. 1-23. ↩︎

  2. Dieser Unterschied kann darauf zurückzuführen sein, dass die archivierte Website weniger umfangreich ist als die anderen Parteiwebsites oder technisch anders aufgebaut ist. Eine intellektuelle Analyse der archivierten Website in einem Viewer wie der OpenWayback kann hier weitere Einsicht verschaffen. ↩︎