Teil 1: Clientseitige KI zur Bekämpfung von Online-Toxizität

Maud Nalpas
Maud Nalpas

Veröffentlicht: 13. November 2024

Hassrede, Belästigung und Onlinemissbrauch sind zu einem weit verbreiteten Problem geworden. Mit schädlichen Kommentaren werden wichtige Stimmen zum Schweigen gebracht und Nutzer und Kunden vertrieben. Die Erkennung von toxischem Verhalten schützt Ihre Nutzer und schafft eine sicherere Onlineumgebung.

In dieser zweiteiligen Reihe erfahren Sie, wie Sie mithilfe von KI toxische Inhalte an der Quelle erkennen und bekämpfen können: an der Tastatur der Nutzer.

In diesem ersten Teil werden die Anwendungsfälle und Vorteile dieses Ansatzes erläutert.

In Teil 2 zeigen wir die Implementierung, einschließlich Codebeispielen und UX-Tipps.

Vorteile der clientseitigen Erkennung von schädlichen Inhalten

Demo zum Posten von Kommentaren
Beispiel für die clientseitige Erkennung von schädlichen Inhalten: Wenn ein Nutzer aufhört, einen Kommentar zu schreiben, wird die Analyse der schädlichen Inhalte im Browser ausgeführt und eine Warnung wird in Echtzeit angezeigt. Demo ansehen

Vorteile

Die clientseitige Erkennung von schädlichen Inhalten ist eine nützliche erste Verteidigungslinie und eine gute Ergänzung zu serverseitigen Prüfungen. Die clientseitige Erkennung von schädlichen Inhalten bietet mehrere Vorteile:

  • Unangemessene Äußerungen frühzeitig erkennen Mit clientseitigen Prüfungen kannst du schädliche Inhalte an der Quelle erkennen, ohne den Server zu beeinträchtigen.
  • Aktivieren Sie Echtzeitprüfungen. Mit der clientseitigen Geschwindigkeit können Sie Anwendungen mit niedriger Latenz erstellen und Ihren Nutzern sofort Feedback geben.
  • Reduzieren oder optimieren Sie die serverseitige Arbeitslast. Sie können die serverseitige Arbeitslast und die Kosten für die Erkennung von schädlichen Inhalten reduzieren. Zum einen können Ihre Hinweise für Nutzer dazu beitragen, die Anzahl schädlicher Kommentare zu verringern. Zum anderen können Sie bestimmte Kommentare als wahrscheinlich schädlich kennzeichnen, bevor sie auf Ihrem Server landen, und sie so bei Ihren serverseitigen Prüfungen priorisieren.
  • Reduzieren Sie den manuellen Aufwand. Die Belastung der menschlichen Moderatoren verringern

Anwendungsfälle

Hier sind einige mögliche Gründe für die clientseitige Erkennung von schädlichen Inhalten:

  • Sofortige Erkennung in Kommentarsystemen Nutzer, die unangemessene Kommentare verfassen, erhalten sofort Feedback und werden aufgefordert, ihre Nachricht vor dem Posten umzuformulieren. Mit clientseitiger KI ist dies ohne API-Schlüssel, ohne serverseitige Klassifizierungskosten bei der Laufzeit und mit geringer Latenz möglich. Das kann für Chat-Apps ideal sein.
  • Echtzeit-Moderation im Livechat Du kannst schnell schädliche Nachrichten von Nutzern erkennen und melden, damit Moderatoren sofort eingreifen können.

Serverseitige Prüfungen beibehalten

Die clientseitige Erkennung von schädlichen Inhalten ist zwar schnell, kann aber von einem böswilligen Nutzer mit frontend-Kenntnissen deaktiviert werden. Außerdem ist kein System zur Erkennung von schädlichen Inhalten zu 100 % genau.

Aus diesen Gründen empfehlen wir Ihnen dringend, eine zusätzliche Überprüfung auf dem Server zu implementieren oder beizubehalten, anstatt sich nur auf die clientseitige Erkennung von schädlichen Inhalten zu verlassen. Sie können beispielsweise Ihre clientseitige Echtzeitprüfung mit einer asynchronen serverseitigen Überprüfung mithilfe der Perspective API ergänzen. Für einen umfassenden Ansatz können Sie diese mit der manuellen Moderation kombinieren.

Vorsichtsmaßnahmen

Für die clientseitige Erkennung von schädlichen Inhalten müssen Sie ein Klassifizierungsmodell und oft auch eine clientseitige KI-Bibliothek auf Ihre Website herunterladen.

Berücksichtigen Sie die Auswirkungen:

  • Kosten für das Hosting und die Bereitstellung des Modells Das Modell ist möglicherweise groß.
  • Leistung und UX Die Bibliothek und das Modell erhöhen die Größe des Bundles.

Berücksichtigen Sie die Vorteile, bevor Sie entscheiden, ob dies für Ihren Anwendungsfall geeignet ist. Wenden Sie Best Practices für die Leistung von clientseitiger KI an und speichern Sie das Modell im Cache, damit der Download nur einmal anfällt.

So funktioniert die Einstufung von schädlichen Inhalten

Bevor wir uns die vollständige Implementierung ansehen, sehen wir uns die Grundlagen der Erkennung von schädlichen Inhalten an.

Ein Modell zur Erkennung von schädlichen Inhalten analysiert vorhandenen Text, anstatt neue Inhalte zu generieren (generative KI). Das ist eine klassische NLP-Aufgabe (Natural Language Processing).

Aufgaben der Verarbeitung natürlicher Sprache. Quelle: HuggingFace

Die Erkennung von schädlichen Inhalten basiert auf Textklassifikatoren, die Text als wahrscheinlich schädlich oder harmlos kategorisieren. Klassifikatoren für unangemessene Inhalte nehmen Text als Eingabe an und weisen ihm verschiedene Labels für unangemessene Inhalte sowie eine Bewertung zu. Die Bewertungen reichen von 0 bis 1. Je höher der Wert, desto wahrscheinlicher ist es, dass die Eingabe unangemessen ist.

Die Erkennung von schädlichen Inhalten basiert auf Textklassifikatoren, die Text als wahrscheinlich schädlich oder harmlos kategorisieren.

Die Nutzereingaben werden klassifiziert und dann bewertet.

Nehmen wir als Beispiel das Modell Xenova/toxic-bert, eine webkompatible Version von unitary/toxic-bert. Es gibt sechs Labels:

  • toxic
  • severe_toxic
  • insult
  • obscene
  • identity_hate
  • threat

Labels wie toxic und severe_toxic geben die allgemeine Toxizität an.

Andere Labels sind detaillierter. Sie identifizieren bestimmte Arten von Toxizität, z. B. identity_hate (Mobbing oder Drohungen gegen die Identität einer Person, z. B. aufgrund ihrer ethnischen Herkunft, Religion oder Geschlechtsidentität) oder threat (eine Äußerung, die die Absicht zum Verletzen von Personen zum Ausdruck bringt).

Für verschiedene Modelle zur Bestimmung von schädlichen Inhalten gibt es unterschiedliche Klassifizierungsmethoden. Hier einige repräsentative Beispiele:

In diesem Beispiel enthält der folgende Eingabetext das Wort „Hass“ und richtet sich gegen eine Person. Daher ist der Wert für toxicity hoch (0.92). Da kein bestimmter Typ von Toxizität erkannt wurde, sind die anderen Werte niedrig.

Input: I hate you
Output of the toxicity classifier:
[
{ label: 'toxic', score: 0.9243140482902527 },
{ label: 'insult', score: 0.16187334060668945 },
{ label: 'obscene', score: 0.03452680632472038 },
{ label: 'identity_hate', score: 0.0223250575363636 },
{ label: 'threat', score: 0.16187334060668945 },
{ label: 'severe_toxic', score: 0.005651099607348442 }
]

Im nächsten Beispiel hat der Eingabetext insgesamt einen hasserfüllten Ton, weshalb ihm eine hohe toxicity-Bewertung (0.92) zugewiesen wird. Da explizit Schäden erwähnt werden, ist auch die threat-Bewertung hoch (0.81).

Input: I hate your garden, and I will kill your plants
Output of the toxicity classifier:
[
{ label: 'toxic', score: 0.9243140482902527 },
{ label: 'insult', score: 0.16187334060668945 },
{ label: 'obscene', score: 0.03452680632472038 },
{ label: 'identity_hate', score: 0.0223250575363636 },
{ label: 'threat', score: 0.819197041168808937 },
{ label: 'severe_toxic', score: 0.005651099607348442 }
]

Nächstes Video

Nachdem Sie den Kontext verstanden haben, können Sie mit dem Erstellen eines clientseitigen KI-Systems zur Erkennung von schädlichen Inhalten beginnen.

LESEN SIE TEIL 2