Der Bot Dog basiert auf einem einzigartigen Datensatz, der insgesamt über 420'000 Online-Kommentare auf Deutsch und Französisch umfasst. Diese wurden von einer Online-Community sowie von studentischen Forscher:innen darauf hin annotiert, ob sie Hass beinhalten und falls ja, gegen wen sich dieser richtet (mehr zur Definition von Hate Speech). Anhand dieser grossen Mengen an Beispielen konnte der Algorithmus lernen, deutsch- und französischsprachigen Hate Speech auf den Schweizer Medienplattformen und Twitter zu erkennen
Der Algorithmus wurde vom Forscherteam an der ETH und der Universität Zürich unter der Leitung von Ana Kotarcic im Verlauf eines Jahres über einige Iterationen hinweg entwickelt. Die Grundlagen wurden mit einem einfacheren statistischen Klassifikationssystem geschaffen. Das Vorgehen erlaubt es schon bei deutlich kleineren Datenmengen, diejenigen Kommentare zu identifizieren, die wahrscheinlich Hass enthalten. Entscheidend ist dabei die ständige Überprüfung der Genauigkeit des Algorithmus bei jeder Iteration durch menschliche Annotation (“human-in-the-loop”). Dies stellt gleichzeitig sicher, dass immer neue Online-Kommentare annotiert werden, mit denen der Bot Dog weiterlernen kann.
Die mit jeder Iteration wachsende Anzahl an annotierten Online-Kommentaren erlaubte es letztlich dann den Bot Dog Algorithmus mittels modernster Transformer Modelle aus dem Bereich des maschinellen Lernens zu trainieren. Im Vergleich zu anderen mehrsprachigen Klassifikationsalgorithmen für Hate Speech ist der Bot Dog dabei sogar am genauesten. Und er ist der bisher einzige Algorithmus, der speziell für den Schweizer Kontext entwickelt wurde.
Die Studie zeigt aber auch auf, dass sich Hass im Netz konstant verändert. Ein Algorithmus, der heute gut funktioniert, kann schon einige Monate später viel weniger effektiv sein. Dies hebt hervor wie wichtig es ist kontinuierlich mit aktuellen Daten den Bot Dog nachzutrainieren. Im Stop Hate Speech Projekt ermöglicht der Algorithmus eine regelmässige Überwachung von Hassrede und Moderationsentscheiden. Dies unterstützt z.B. dann zeitnahe Gegenrede, um dem Hass effektiv zu begegnen (mehr zur Gegenrede gegen Hassrede). Entsprechend ist nicht nur ein schnelle Identifikation von Hasskommentaren wichtig, sondern auch, dass diese Erkennung auch immer verlässlich im aktuellen Tagesgeschehen funktioniert.
Studie: Ana Kotarcic, Dominik Hangartner, Fabrizio Gilardi, Selina Kurer and Karsten Donnay. (2022). Human-in-the-Loop Hate Speech Classification in a Multilingual Context. In Findings of the Association for Computational Linguistics: EMNLP 2022, Abu Dhabi, United Arab Emirates. Association for Computational Linguistics.