Anwendung eines Algorithmus zur Erkennung von deutschsprachigen antisemitischen Inhalten auf YouTube: Hintergrund und Methodik

30. November 2021

Von Cooper Gatewood, Shaun Ring und Julia Smirnova

Die automatisierte Erkennung von Hassrede ist ein wachsender Bereich der Forschung und Praxis, der durch Fortschritte auf dem Gebiet Natural Language Processing (NLP) in den letzten Jahren vorangetrieben wurde. Trotz weiterhin bestehender Einschränkungen und Herausforderungen ermöglichen NLP-Klassifizierungsansätze das Auffinden potenziell schädlicher Inhalte in riesigen Datenmengen, die mit manuellen Ansätzen allein kaum zu analysieren sind. Derartige Werkzeuge finden bereits eine breite Anwendung, u. a. bei Social-Media-Plattformen, wo sie zur Erkennung hasserfüllter Inhalte eingesetzt werden. Die von den Unternehmen veröffentlichten Angaben zur Genauigkeit und Wirksamkeit dieser Klassifizierungsverfahren sollten jedoch kritisch hinterfragt werden, wie die jüngste Kontroverse um die Bemühungen von Facebook gezeigt hat.

Die COVID-19-Pandemie hat zu einem Anstieg von antisemitischen Verschwörungsnarrativen und Hassrede im Internet geführt. Einer ISD-Analyse deutschsprachiger Daten von Facebook, Twitter und Telegram zufolge hat sich die Zahl der antisemitischen Kommentare zwischen Januar 2020 und März 2021 in Deutschland verdreizehnfacht, in Frankreich stiegen diese ums siebenfache.

Gemeinsam mit dem Centre for the Analysis of Social Media (CASM) hat das ISD einen interdisziplinären Ansatz für die Entwicklung von NLP-Algorithmen erarbeitet, der sozialwissenschaftliche Kenntnisse mit Fachwissen aus dem Bereich des maschinellen Lernens (ML) verbindet. Diese Algorithmen, die in englischer und französischer Sprache arbeiten, wurden beispielsweise zur Analyse von antisemitischen Inhalten in deutschlandbezogenen Threads auf 4chan, Online-Hassrede in Frankreich und Belästigungen von Politiker:innen in den Vereinigten Staaten eingesetzt.

Videoplattformen wie YouTube stellen eine größere Herausforderung für NLP-Ansätze dar als hauptsächlich text- und bildbasierte Medien wie Facebook und Twitter. Daher besteht nach wie vor eine erhebliche Lücke bei der quantitativen Erfassung von Antisemitismus und verwandten Themen auf dieser Plattform. Dies ist deshalb problematisch, da Extremist:innen, Verschwörungstheoretiker:innen und COVID-Skeptiker:innen trotz der Bemühungen der Plattform, Richtlinien zum Verbot von Hassrede und Missbrauch durchzusetzen, weiterhin auf YouTube agieren.

Das aktuelle ISD-Projekt zur Klassifizierung deutschsprachiger YouTube-Kommentare soll in mehrfacher Hinsicht zur Forschung und öffentlichen Debatte beitragen:

  1. Es ermöglicht, die Menge antisemitischer Äußerungen in den Kommentaren deutschsprachiger YouTube-Videos zu analysieren.
  2. Auf diese Weise lassen sich Videos identifizieren, die eine hohe Anzahl antisemitischer Kommentare aufweisen, auch wenn nicht jeder antisemitische Kommentar erkannt werden kann.
  3. Dadurch werden die schwierigsten sprachlichen und kontextuellen Herausforderungen bei der automatisierten Klassifizierung von Antisemitismus identifiziert und es wird aufgezeigt, wo eine manuelle Überprüfung und Kontrolle am wichtigsten ist.

Herausforderungen bei automatisierten Ansätzen

Die Arbeit der ISD stützt sich auf die bisherige Forschung zu den Grenzen und Möglichkeiten von Natural Language Processing. Hassrede ist äußerst nuanciert und selbst für menschliche Annotator:innen oftmals schwer zu kennzeichnen. Wie Vidgen et al. aufzeigen, stellen die mangelnde Klarheit der Definitionen sowie sprachliche Schwierigkeiten eine Herausforderung für die Erkennung von schädlichen Inhalten dar – z. B. die Verwendung von Humor oder Ironie, verschiedene Schreibweisen, Polysemie (ein Wort mit mehreren verschiedenen Bedeutungen) und die Berücksichtigung des Kontexts.

Außerdem verändert sich die Sprache im Laufe der Zeit. Insbesondere bei antisemitischen Ausdrücken verwenden Online-Nutzer:innen eine kodierte Sprache sowie Anspielungen (wie frühere Forschungsarbeiten des ISD und Berichte des Projekts „Decoding Antisemitism“ zeigen), was die Kennzeichnung solcher Inhalte erschwert. Weitere Herausforderungen, wie z. B. Klassifizierungsbias und Entscheidungen darüber, wie Trainingsdaten mit einer repräsentativen Stichprobe von beleidigenden und nicht beleidigenden Inhalten erstellt werden können, werden derzeit in der Forschungsgemeinschaft diskutiert. Schließlich müssen bei der Entwicklung und Anwendung dieser Ansätze auch forschungsethische Fragen stets berücksichtigt werden, einschließlich möglicher Schäden für Forscher:innen, die Inhalte kodieren.

Methodik

Definition und Kodierung

Für dieses Projekt hat das ISD die Antisemitismus-Definition der International Holocaust Remembrance Alliance (IHRA) verwendet: „Antisemitismus ist eine bestimmte Wahrnehmung von Jüdinnen und Juden, die sich als Hass gegenüber Jüdinnen und Juden ausdrücken kann. Der Antisemitismus richtet sich in Wort oder Tat gegen jüdische oder nichtjüdische Einzelpersonen und/oder deren Eigentum sowie gegen jüdische Gemeindeinstitutionen oder religiöse Einrichtungen.“ Darüber hinaus wurden bei der Annotation elf konkrete von der IHRA angeführte Beispiele für verschiedene Erscheinungsformen von Antisemitismus verwendet. Insbesondere folgte das wissenschaftliche Team des ISD den IHRA-Definitionen, um Kritik an Israel von Antisemitismus zu unterscheiden (letzterer äußert sich z. B. in dem „Aberkennen des Rechts des jüdischen Volkes auf Selbstbestimmung, z.B. durch die Behauptung, die Existenz des Staates Israel sei ein rassistisches Unterfangen“ oder im „kollektiven Verantwortlichmachen von Jüdinnen und Juden für Handlungen des Staates Israel“). Die Inhalte wurden von zwei ISD-Analyst:innen unabhängig voneinander kodiert. Unstimmigkeiten oder Unsicherheiten wurden im Fachkreis  Antisemitismus diskutiert. Das ISD traf seine Entscheidungen auf der Grundlage gemeinsamer Diskussionen, was besonders bei Grenzfällen wichtig war und die Qualität der Annotation erhöhte.

Trainingsdatensatz

Um zu vermeiden, dass für das Training des Algorithmus ein Datensatz mit einem zu geringen Anteil hasserfüllter Inhalte verwendet wurde, erstellte das ISD einen Trainingsdatensatz mit einem erheblichen Anteil an antisemitischen Inhalten. Dazu trug man eine Reihe deutschsprachiger Videos aus früheren ISD-Forschungen zusammen, die dieses Kriterium erfüllten. Mit Hilfe der öffentlichen YouTube-API wurden alle Kommentare zu diesen Videos gesammelt, wobei man nicht-deutsche Kommentare entfernte, um das Datenrauschen zu reduzieren.

Der Trainingsdatensatz bestand aus 46.215 Kommentaren zu 1.753 Videos, die zwischen dem 2. Januar 2021 und dem 30. Juli 2021 veröffentlicht wurden.

Algorithmus-Training

Relevanz für Diskussionen über Jüdinnen und Juden bzw. Israel

Um nach Relevanz zu filtern, suchten die Forschenden zunächst nach Kommentaren mit bestimmten Stichwörtern, die mit einschlägigen Diskussionen in Verbindung stehen, ohne unbedingt antisemitisch zu sein. Diese umfangreiche Liste von 284 Stichwörtern beinhaltet Wörter, die in Diskussionen über Israel und Jüdinnen/Juden vorkommen, darunter auch einige antisemitische Stichwörter. Nach diesem stichwortbasierten Filter trainierte man einen Algorithmus darin, relevante und irrelevante Kommentare zu identifizieren. Als relevant wurden Kommentare definiert, die sich auf das Judentum, das jüdische Volk oder den Staat Israel bezogen. Dazu gehörte alles, was offensichtlich antisemitisch war, aber auch Diskussionen über Politik, Religion und jüdische Gemeinden in verschiedenen Ländern.

Nach der Kodierung von über 600 einzelnen Kommentaren wies der Algorithmus eine Genauigkeit von 92 % bei der Erkennung relevanter Inhalte auf. Dieser Genauigkeitsgrad wurde von Analyst:innen bei einer manuellen Überprüfung einer Zufallsstichprobe von als relevant eingestuften Kommentaren bekräftigt. Dabei wurden 37.552 Kommentare, also 81 % des Datensatzes, als relevant eingestuft.

Bezug zu Antisemitismus

Danach wurde eine weitere Ebene von Stichwortfiltern angewendet, um sicherzustellen, dass nur relevante Inhalte in die nachfolgenden Klassifikatoren einfließen. Zur Verfeinerung der Stichprobe wurde eine endgültige Liste von 83 Stichwörtern verwendet, die aus der Arbeit am vorherigen Klassifikator hervorging.

Der nächste Schritt war zunächst als Algorithmus vorgesehen, der antisemitische Inhalte unter den relevanten Kommentaren identifizieren sollte. Als die Analyst:innen jedoch mit der Codierung der Kommentare begannen, wurde schnell klar, dass dies in zwei einzelne Schritte aufgeteilt werden musste.

Zuerst mussten Kommentare identifiziert werden, die sich auf Antisemitismus bezogen. Der Datensatz enthielt eine beträchtliche Menge an Diskussionen über Antisemitismus, z. B. Äußerungen, die den Antisemitismus anprangern oder Meinungen darüber, was Antisemitismus ausmacht, einschließlich Aussagen wie „X ist ein Antisemit, weil er der Meinung ist, dass Israel kein Existenzrecht hat“.

Da der Algorithmus Schwierigkeiten hatte, Aussagen wie die oben erwähnte von explizit antisemitischen Aussagen zu unterscheiden, wurde er darauf trainiert, zuerst Kommentare zu identifizieren, in denen über das Thema Antisemitismus diskutiert wird. Die für diese Untergruppe verwendete Definition lautete: Alle Kommentare, in denen diskutiert wird, was Antisemitismus ist, in denen andere wegen Antisemitismus beschimpft werden oder in denen Antisemitismus zum Ausdruck kommt.

Nach der Kodierung von fast 500 einzelnen Kommentaren wies der Algorithmus eine Genauigkeit von 78 % auf. Bei der manuellen Überprüfung einer Stichprobe bestätigten die Analyst:innen, dass diese Genauigkeit wahrscheinlich eher bei 80 % lag. Dieser Algorithmus stufte 745 Kommentare als relevant ein, was etwa 1,6 % des gesamten Datensatzes entsprach.

Antisemitische Inhalte

Schließlich wurden von den Analyst:innen über 200 Kommentare manuell kodiert, um einen Algorithmus zur Identifizierung antisemitischer Inhalte zu trainieren. Dazu gehörten die Aufstachelung zu oder die Förderung von Gewalt gegen jüdische Menschen, antisemitische Verschwörungserzählungen und gegen Einzelpersonen gerichtete antisemitische Angriffe. Der Algorithmus wies eine Genauigkeit von 80 % auf und stufte 530 Kommentare als explizit antisemitisch ein, was etwa 1,1 % des gesamten Datensatzes entsprach.

Feinabstimmung der Klassifikatoren für neue Daten

Nach diesem Training wurde eine neue Stichprobe von Daten gesammelt und durch diese Klassifizierungspipeline geleitet. Um sicherzustellen, dass die Genauigkeit der NLP-Klassifikatoren auch bei neuen Daten erhalten blieb, wurden für jeden Klassifikator weitere 20 Meldungen kodiert. Eine manuelle Überprüfung der endgültigen antisemitischen Stichprobe ergab, dass die Klassifikatoren auch mit diesen neuen Daten korrekt waren. Die Analyse dieser Daten wird in zukünftigen ISD Digital Dispatches vorgestellt werden.

Limitationen

Dieser Ansatz zur Identifizierung antisemitischer Online-Inhalte hat zwei wesentliche Limitationen. Die erste bezieht sich auf die Datenerhebung. Die YouTube-API lässt keine Massensammlung von Kommentaren zu, weder eine Stichprobe aller Kommentare auf der Plattform noch eine Erfassung auf der Grundlage von Stichwörtern. Daher muss jede Analyse von Kommentaren zunächst relevante Kanäle und/oder Videos identifizieren, deren Kommentare dann gesammelt werden. Somit ist es nahezu unmöglich, eine repräsentative Stichprobe von YouTube-Kommentaren zu bilden, was verallgemeinerbare Ergebnisse schwierig macht. Jegliche Erkenntnisse sind auf die betreffende Stichprobe beschränkt, auch wenn sie möglicherweise auf breitere Trends auf der Plattform hinweisen. Darüber hinaus könnten einige der offensichtlicheren antisemitischen Äußerungen von den YouTube-Moderatoren entfernt worden sein, was bedeutet, dass das ISD sich mit subtilerer Sprache befasst hat und nur einen viel kleineren relevanten Datensatz für das Training verwenden konnte.

Die zweite Limitation hängt mit der Natur von Algorithmen im Bereich Natural Language Processing zusammen. Kein Algorithmus ist zu 100 % genau, vor allem nicht in einem Bereich, in dem die Definitionen umstritten oder strittig sind, wie es bei Antisemitismus der Fall ist. Tatsächlich war es für die Analyst:innen bei der Kodierung einzelner Kommentare manchmal schwierig, zwischen antisemitischen und nicht antisemitischen Äußerungen zu unterscheiden und sich darauf zu einigen. Diese Limitation ist jedoch nicht ausschließlich bei NLP-basierten Ansätzen zu finden; auch bei der manuellen Kodierung großer Datensätze können Fehler auftreten. Außerdem sind sich die Kodierenden nicht immer über die Auslegung der operativen Definitionen einig. Jeder Algorithmus in diesem Workflow erreichte eine Genauigkeit von etwa oder mehr als 80 %, ein relativ hoher Standard für diese Art von Arbeit.

Ausblick

Trotz der Limitationen stellen die Möglichkeiten, die automatisierte Systeme zur Erkennung von Hassrede bieten, gleichermaßen ein wertvolles Werkzeug für Forschende, Praktiker:innen und soziale Medienplattformen dar. Eine Kombination aus manuellen und automatisierten Ansätzen zur Erkennung schädlicher Inhalte scheint am effizientesten zu sein, wenn die Klassifikatoren verantwortungsvoll eingesetzt werden und daran gearbeitet wird, sie so präzise und anpassungsfähig an die sich verändernde Sprache wie möglich zu gestalten. Was die Forschung betrifft, so lassen sich mit Hilfe von Klassifikatoren bestimmte Muster erkennen – z. B. in Bezug auf die Verbreitung schädlicher Inhalte, prominenter Nutzer sowie der am stärksten betroffenen Gruppen und die Veränderung in der Anzahl an Inhalten im Verlauf der Zeit – und zwar besser als mit stichwortbasierten Ansätzen allein.

Das Ergebnis des Projekts ist ein hochpräziser Klassifikator, der für die Analyse deutschsprachiger antisemitischer Inhalte auf YouTube eingesetzt werden kann. Weitere ISD Digital Dispatches in dieser Reihe werden die Ergebnisse einer ersten Analyse mit dem Klassifikator vorstellen.

Diese Digital Dispatches ist auch auf Englisch verfügbar.