Analysen

Einsteigerwerkzeuge - Voyant

Die nachfolgende Analysebeschreibung zeigt anhand eines Beispiels aus dem DFG-Projekt „Methoden der Digital Humanities in Anwendung auf Webarchive“, wie sich Forschende Textdaten aus Webarchiven mit computergestützten Textanalyseverfahren nähern können. Datenbasis für die Analyse sind abgeleitete Datensets, wie sie mit Archives Unleashed Toolkit aus den ursprünglichen WARC-Dateien erzeugt wurden. Die Werkzeuge und Verfahren sind so ausgewählt, dass sie keine spezifischeren technischen Kenntnisse oder Erfahrung mit computergestützten Analysemethoden voraussetzen. Im Bereich der Textanalyse kommt das browserbasierte Werkzeug Voyant Tools für einführende frequenzbasierte Auswertungen zum Einsatz.

Im Projekt „Methoden der Digital Humanities in Anwendung auf Webarchive“ wurde ein sogenannter „Event-Crawl“ zur Europawahl 2019 durchgeführt. Dabei wurden Websites und Social Media Auftritte von Parteien, Kandidat*innen und Medien im Vorfeld der Europawahl in regelmäßigen Abständen erfasst und archiviert. Für die vorliegende exemplarische Analyse wurden mit dem Archives Unleashed Toolkit aus den Websites der Parteien AfD, CDU, Bündnis90/Die Grünen und SPD, die im Rahmen des Event-Crawls archiviert wurden, Textinhalte extrahiert.1 Datenbasis ist jeweils die letzte archivierte Version der Websites unmittelbar vor der Wahl in der Zeit vom 22. bis 26. Juni 2019. Aus den archivierten HTML-Dokumenten wurde der Inhaltstext extrahiert und im CSV-Format gespeichert. Jede Zeile entspricht einem Dokument und enthält das Crawldatum, die URL, die verwendete Sprache und den Textinhalt ohne HTML-Markup. Textinhalte wie die Navigation oder der Footer, die standardmäßig auf jeder Unterseite angezeigt werden und somit keinen inhaltlichen Wert haben bzw. Ergebnisse gar verzerren, wurden anhand einer Heuristik gefiltert. 2 Diese Filterfunktion ist bereits Teil des Archives Unleashed Toolkit. Da Textanalyseverfahren üblicherweise sprachspezifisch sind, ist es sinnvoll, die Texte anschließend zum Beispiel in einem Tabellenverarbeitungsprogramm nach der gewünschten Sprache zu filtern. Damit die Tabellenzeilen als Einzeldokumente mit zusätzlichen Metadaten wie der URL in Voyant importiert und verarbeitet werden können, muss das Derivat noch ins Microsoft Excel Format übertragen werden.

Voyant Tools liefert statistische Werte zum Korpus wie die Anzahl der Dokumente oder die Anzahl der einzelnen Wörter. Tabelle 1 stellt diese Werte für die vier Datensets dar. Insbesondere die geringe Anzahl von Dokumenten für die archivierte Website der Grünen muss bei der folgenden Analyse berücksichtigt werden und kann die Aussagekraft der Ergebnisse einschränken. Darüber hinaus bietet Voyant Tools verschiedene Textanalysewerkzeuge, die in einzelnen Fenstern gleichzeitig aufgerufen und beliebig kombiniert werden können. Für eine erste Erkundung der archivierten Webseiten beschränken wir uns auf die Analyse der Worthäufigkeiten und die Auswertung von Kollokationen. Die beiden Verfahren sollen uns Hinweise darauf geben, welche Inhalte auf den verschiedenen Websites besonders wichtig sind und häufig vorkommen und wie über bestimmte Inhalte auf den Websites gesprochen wird.

Parteien Anzahl der Dokumente Wortzahl
AfD 4.431 885.250
Bündnis90/Die Grünen 200 137.517
CDU 2.559 755.604
SPD 2.526 1.031.591
Tabelle 1: Statistische Werte zur Beschreibung der Korpora, ermittelt mit Voyant Tools.

Worthäufigkeiten

Mit Blick auf die Worthäufigkeiten (siehe Tabelle 2) zeigt sich, dass mit einer Ausnahme auf allen Partei-Websites der eigene Parteiname am prominentesten ist. Bei allen Parteien wird zudem häufig auf „Deutschland“ und, mit Ausnahme der AfD, auf „Europa“ und „Menschen“ Bezug genommen. Trotz des zeitlichen Fokus auf die Europawahl 2019 sind die Grünen die einzige Partei, bei denen Europa häufiger erwähnt wird als Deutschland – hier könnte allerdings auch die vergleichsweise geringe Datenbasis die Ergebnisse verfälschen. Während bei SPD, CDU und AfD auch Namen von Parteimitgliedern häufig erwähnt werden, spielen die Spitzenkandidaten in den Europawahlen 2019 auf keiner Parteiwebsite eine wichtige Rolle.

Die häufigsten Begriffe auf der Website der SPD sind geprägt von parteiinternen Entwicklungen im Juni 2019. Lediglich die Begriffe „Menschen“, „Deutschland“, „Europa“, „Frauen“ und „Arbeit“ lassen eine gewisse thematische Anbindung vermuten. Nach dem Rücktritt von Andrea Nahles („Nahles“: 1591 Erwähnungen) Anfang Juni 2019 scheint allerdings nicht die Europawahl, sondern die interne Debatte um den neuen Parteivorstand der SPD im Fokus zu stehen. Die Namen der drei kommissarischen Vorsitzenden der SPD, Manuela Schwesig, Malu Dreyer, und Thorsten Schäfer-Gümbel werden dabei ähnlich häufig erwähnt wie die Begriffe „Parteivorstand“ und „Vorsitzende“, während die Spitzenkandidatin der SPD bei den Europawahlen 2019, Katarina Barley, Ende Juni 2019 keine präsente Rolle auf der Parteiwebsite einnimmt. Mit Sigmar Gabriel und Martin Schulz werden auch zwei damalige SPD-Bundestagsabgeordnete häufig erwähnt, die keine offiziellen Posten in der SPD mehr innehielten.

Auf der Website der CDU wird Europa ähnlich häufig erwähnt wie Deutschland, mit verschiedenen Begriffen wie „Europa“, „EU“, „Europäischen“ ist Europa bei der CDU, gemessen an der Datenbasis, am präsentesten. Personell spielen Bundeskanzlerin Angela Merkel und die damalige Vorsitzende der CDU, Annegret Kramp-Karrenbauer, eine prominente Rolle auf der Website der CDU. Die am häufigsten erwähnte Person auf der CDU-Website ist allerdings Peter Tauber, dessen Vorschlag, Verfassungsfeinden bestimmte Grundrechte zu entziehen, im Juni 2019 zu kontroversen Diskussionen geführt hatte und damit auch zu seiner großen Präsenz auf der Parteiwebsite geführt haben könnte. Im Gegensatz zur Parteiwebsite der SPD sind bei der CDU auch inhaltliche Begriffe wie „Zukunft“, „Sicherheit“, „Euro“ oder „Arbeit“ auffällig sichtbar. Auch die CSU wird häufig erwähnt, die Spitzenkandidaten von CDU und CSU in den Europawahlen, insbesondere Manfred Weber (CSU) als Spitzenkandidat der EVP für das Amt des EU-Kommissionspräsidenten, finden sich in den häufigsten Begriffen auf der Website der CDU allerdings nicht wieder.

In Hinblick auf die Website der AfD ist auffällig, dass Berlin häufiger erwähnt wird als Deutschland, während Europa keine Rolle zu spielen scheint. Abgesehen davon sind die häufigsten Begriffe auf der Website der AfD geprägt von technischen und organisatorischen Begriffen wie „Veranstaltungen“, „Medien“, „Umfragen“, „Stellungnahmen“, was auf den Aufbau der Parteiwebsite zurückzuführen sein könnte: Bei jeder Unterseite wird unter anderem auf das Mitgliedermagazin und den YouTube-Kanal der Partei hingewiesen. Zudem werden die Namen der Parteifunktionäre Alexander Gauland, Georg Pazderski und Alice Weidel häufig erwähnt. In den häufigsten Begriffen auf der Parteiwebsite der AfD finden sich keine Hinweise auf eine thematische Auseinandersetzung mit der Europawahl.

Die Website von Bündnis 90/Die Grünen betont „Europa“ und „EU“ in Relation zur Datenbasis ähnlich häufig wie die CDU (dritt- bzw. vierthäufigster Begriff) und hat auf den ersten Blick die programmatischste Ausrichtung aller vier Parteiwebsites. Neben den allgemeinen Begriffen „Menschen“, „Gesellschaft“ und „Leben“ werden auch thematische Begriffe wie „Demokratie“, „Arbeit“, „Frauen“, „Euro“ oder „Zukunft“ häufig erwähnt. Interessant ist hier, dass trotz der umweltpolitischen Ausrichtung der Partei bis auf den Begriff „grüne“, der auch in Bezug auf den Parteinamen verwendet sein könnte, keine umweltpolitischen Begriffe (wie „Umweltschutz“, „Klima“, „Natur“ etc.) unter den häufigsten Begriffen zu finden sind. Als einzige untersuchte Partei sind auf der Website der Grünen keine Namen von Parteifunktionären oder Kandidaten unter den 25 häufigsten Begriffen.

Abbildung 1: Die 25 häufigsten Begriffe auf der Website der Partei "Bündnis 90/Die Grünen" zum Zeitpunkt der Europawahl 2019, visualisiert als Wortwolke.

Abbildung 2: Die 25 häufigsten Begriffe auf der Website der Partei "CDU" zum Zeitpunkt der Europawahl 2019, visualisiert als Wortwolke.
AfD Bündnis 90/Die Grünen CDU SPD
1 afd (9382) menschen (551) cdu (9992) spd (11896)
2 berlin (9219) grünen (490) deutschland (2707) menschen (2856)
3 deutschland (7541) europa (298) menschen (1947) deutschland (2320)
4 alternative (5250) grüne (288) europa (1755) europa (2165)
5 veranstaltungen (4793) gesellschaft (209) tauber (1736) partei (1780)
6 medien (4711) leben (204) eu (1593) frauen (1649)
7 videos (4671) deutschland (202) merkel (1551) nahles (1591)
8 bund (4533) politik (190) thema (1394) juni (1530)
9 ländern (4517) demokratie (179) foto (1367) arbeit (1402)
10 soziale (4474) partei (158) deutschlands (1233) parteivorstand (1338)
11 umfragen (4430) bündnis (151) csu (1223) gabriel (1317)
12 ereignissen (4426) 90 (149) land (1217) andrea (1305)
13 teilnehmen (4425) zeit (147) zukunft (1140) schwesig (1297)
14 aktivitäten (4424) fragen (139) sicherheit (1028) zeit (1250)
15 stellungnahmen (4416) unternehmen (131) euro (1020) land (1203)
16 aktivieren (4414) daten (128) fragen (1016) schäfer (1191)
17 interviews (4414) arbeit (124) kramp (1003) gümbel (1189)
18 mitgliedermagazin (4413) eu (123) karrenbauer (1001) schulz (1174)
19 aufzeichnungen (4412) jahren (120) union (971) vorsitzende (1098)
20 direktkontakt (4412) 2019 (119) angela (943) dreyer (1092)
21 erklärt (3634) stehen (118) generalsekretär (894) uhr (1074)
22 gauland (3245) frauen (117) europäischen (892) 24 (1070)
23 pazderski (2966) euro (116) mitglieder (876) politik (1054)
24 georg (2528) welt (116) arbeit (848) gesellschaft (1036)
25 weidel (2513) zukunft (111) leben (839) dpa (1014)
Tabelle 2: Die 25 häufigsten Begriffe auf den Websites der verschiedenen Parteien. Die absolute Häufigkeit jedes Begriffs ist in Klammern angegeben.

Kollokationen

Im Zusammenhang mit der Europawahl interessiert uns nicht nur, wie häufig auf den Parteien-Websites auf Europa und die EU Bezug genommen wird, sondern auch, in welchem Kontext das geschieht. Um uns dieser Frage zu nähern, wollen wir herausfinden, welche Begriffe besonders häufig gemeinsam mit Begriffen wie „europäisch“ oder „Europawahl“ vorkommen. Mit Voyant Tools können wir einen sogenannten Kollokationsgraph für den Wortstamm „europ*“ erstellen. Das zentrale Suchmuster „europ*“ umfasst dabei alle Begriffe, unabhängig von der Groß- und Kleinschreibung, die mit dem Präfix „europ-“ beginnen und beliebig enden. Der Kollokationsgraph enthält die Begriffe, die am häufigsten im Umkreis von 5 Wörtern um unser Suchmuster herum vorkommen (siehe Tabelle 3).

In der Kollokationsanalyse bestätigt sich das Bild, dass die AfD im Vergleich zu den anderen Parteien nur wenige europäische Themen auf ihrer Website aufgreift. In Relation zur Gesamtzahl der Wörter pro Partei wird auf der Website der AfD der Wortstamm „europ*“ nur etwa halb so häufig erwähnt (0,28% aller Wörter) wie auf den Websites der übrigen Parteien (0,45-0,53% aller Wörter). Bei SPD, AfD und Grünen wird der Wortstamm am häufigsten in Verbindung mit dem Parteinamen erwähnt, bei der CDU wird „Deutschland“ in diesem Zusammenhang etwas häufiger erwähnt als der eigene Parteiname. Auch bei SPD und AfD wird „Deutschland“ häufig in Verbindung mit „europ*“ verwendet, bei den Grünen ist der Begriff in diesem Zusammenhang nicht relevant. Mit den Begriffen „gemeinsam“ oder „Zusammenhalt“ betonen CDU, SPD und Grüne außerdem die Kooperation auf europäischer Ebene. Insgesamt zeigen die Kollokationen eine programmatischere Ausrichtung der Parteien als bei dem Blick auf die häufigsten Worte auf den Parteiwebsites. Allerdings spielen auch hier die Spitzenkandidaten der Parteien bei den Europawahlen 2019 nur eine untergeordnete Rolle: Lediglich die AfD erwähnt ihren Spitzenkandidaten Jörg Meuthen in Verbindung mit dem Wortstamm „europ*“ häufig.

Bei der SPD beziehen sich die häufigsten Kollokationen mit dem Wortstamm „europ*“ weniger auf konkrete Politiken, sondern auf die institutionelle oder prozessuale Ebene – hier werden die Begriffe „Parlament“, „Abstimmung“ oder „Partnern“ besonders häufig verwendet. Im Gegensatz dazu werden auf der Website der CDU auch policy-bezogene Begriffe wie „Sicherheit“, „Wohlstand“ und „TTIP“ häufig im Zusammenhang mit „europ*“ erwähnt. Die Begriffe Sicherheit und Wohlstand spiegeln dabei den Fokus des gemeinsamen Wahlprogrammes von CDU und CSU zu den Europawahlen 2019 auf „Sicherheit, Frieden und Wohlstand“ wider. Auch bei den Grünen zeigt sich in der Kollokationsanalyse eine programmatische Ausrichtung, insbesondere in Hinblick auf „Klimaschutz“ und „Demokratie“. Zuletzt zeigt sich die nationale Orientierung der AfD in den Kollokationen des Wortstamms „europ*“ mit den Begriffen „Vaterländer“ und „Freiheit“. Mit „Armee“ wird auch ein Politikvorschlag (Europäische Armee) häufig diskutiert, den die AfD in Bezug auf die nationale Souveränität stark ablehnt.

AfD Bündnis 90/Die Grünen CDU SPD
1 afd (354) grüne (34) deutschland (268) spd (394)
2 meuthen (218) stärken (32) cdu (220)
3 jörg (184) demokratie (32) gemeinsam (133)
4 vaterländer (138) grünen (22) sicherheit (110)
5 deutschland (129 zusammenhalt (22) zukunft (109)
6 freiheit (127) klimaschutz (18) wohlstand (72)
7 armee (99) bauen (16) ttip (72)
Tabelle 3: Die sieben häufigsten Begriffe im Kontext des Suchmusters "europ\*" auf den Websites der verschiedenen Parteien. Die absolute Häufigkeit der Begriffe ist in Klammern angegeben.

Abbildung 3: Die häufigsten Begriffe im Umfeld von Wörtern mit dem Wortstamm "europ\*" auf der Website der SPD zum Zeitpunkt der Europawahl 2019, visualisiert als Kollokationsgraph.

Abbildung 4: Die häufigsten Begriffe im Umfeld von Wörtern mit dem Wortstamm "europ\*" auf der Website der AfD zum Zeitpunkt der Europawahl 2019, visualisiert als Kollokationsgraph.

Fazit

Auch wenn Texte aus archivierten Websites mit gängigen Analysewerkzeugen aus den Digital Humanities ausgewertet werden können, so unterscheiden sie sich doch von anderen Arten digitaler Texte. Diese Besonderheiten müssen auch bei der Analyse berücksichtigt werden. Beispielsweise wird die Frequenzanalyse durch Inhalte wie Cookie-Banner verzerrt, die standardmäßig auf jeder Seite eingeblendet werden, aber keinen inhaltlichen Mehrwert besitzen. Dasselbe gilt für Codeschnipsel, die von manchen Websites automatisch generiert werden, damit Nutzer*innen die Seiteninhalte in externe Websites einbetten können. Voyant Tools hilft Nutzer*innen dabei zu prüfen, wo häufige Begriffe vorkommen und ob sie tatsächlich inhaltlichen Mehrwert bieten. Mit diesen Informationen lässt sich die Auswertung überarbeiten und schärfen, indem bestimmte Begriffe, Textpassagen oder ganze Dokumente von der Analyse ausgeschlossen werden. Dafür kann beispielsweise die in Voyant Tools hinterlegte Stopwortliste erweitert oder es können vorab in einem Tabellenverarbeitungsprogramm ganze Dokumente anhand eines bestimmten URL-Musters herausgefiltert werden.


  1. Die Wahl fiel auf diese Parteien als Beispiele, da sie im Sinne des postfunktionalistischen Cleavage-Ansatzes unterschiedliche Positionen auf einer „klassischen, ökonomisch determinierten Links-Rechts-Achse als Inverted-U-Curve“ (Anders et al. 2018) abbilden. So befürworten Mainstream-Parteien die europäische Integration eher als die Parteien am Rand des politischen Spektrums. Mittlerweile findet aber eine zunehmende Überlagerung dieses klassischen ökomischen Cleavage durch eine soziokulturelle Konfliktdimension statt. Hooghe und Marks beschreiben diese mit den Polen GAL, für green/alternative/libertarian (grün/alternativ/liberal), und TAN, für traditionalism/authority/nationalism (Traditionalismus/Autorität/Nationalismus). Bündnis 90/Die Grünen und die AfD sind klar auf den beiden Seiten des GAL/TAN-Cleavages verortet. CDU und SPD hingegen können als klassische Mainstream-Parteien bezeichnet werden. Siehe dazu Lisa H. Anders, Henrik Scheller und Thomas Tuntschew, „Die Politisierung der Europäischen Union und die Rolle der Parteien. Konzeptionelle Grundlagen, Desiderate und Perspektiven“, in: dies. (Hg.): Parteien und Politisierung der Europäischen Union, Wiesbaden 2018, S. 1-38.; Liesbet Hooghe und Gary Marks, „European Integration and Democratic Competition“ in: FES Europäische Politik, Nr. 3 (2004); Mark Aspinwall, „Preferring Europe: Ideology and National Preferences on European Integration“ in: European Union Politics 3, Nr. 1 (2002), S. 198-212.; Liesbet Hooghe und Gary Marks, „A Postfunctionalist Theory of European Integration: From Permissive Consensus to Constraining Dissensus“ in: British Journal of Political Science 39, Nr. 1 (2009), S. 1-23. ↩︎

  2. Die verwendete Bibliothek basiert auf Kohlschütter, Christian, Peter Frankhauser, und Wolfgang Nejdl. „Boilerplate Detection using Shallow Text Features“. Vortrag auf WSDM 2010 - The Third ACM International Conference on Web Search and Data Mining New York City, NY USA. New York City, NY USA, 2010. https://www.l3s.de/~kohlschuetter/publications/wsdm187-kohlschuetter.pdf↩︎