Veröffentlicht: 13. November 2024
Hassrede, Belästigung und Onlinemissbrauch sind zu einem weit verbreiteten Problem geworden. Mit schädlichen Kommentaren werden wichtige Stimmen zum Schweigen gebracht und Nutzer und Kunden vertrieben. Die Erkennung von toxischem Verhalten schützt Ihre Nutzer und schafft eine sicherere Onlineumgebung.
In dieser zweiteiligen Reihe erfahren Sie, wie Sie mithilfe von KI toxische Inhalte an der Quelle erkennen und bekämpfen können: an der Tastatur der Nutzer.
In diesem ersten Teil werden die Anwendungsfälle und Vorteile dieses Ansatzes erläutert.
In Teil 2 zeigen wir die Implementierung, einschließlich Codebeispielen und UX-Tipps.
Vorteile der clientseitigen Erkennung von schädlichen Inhalten
Vorteile
Die clientseitige Erkennung von schädlichen Inhalten ist eine nützliche erste Verteidigungslinie und eine gute Ergänzung zu serverseitigen Prüfungen. Die clientseitige Erkennung von schädlichen Inhalten bietet mehrere Vorteile:
- Unangemessene Äußerungen frühzeitig erkennen Mit clientseitigen Prüfungen können Sie schädliche Inhalte an der Quelle erkennen, ohne den Server zu beeinträchtigen.
- Aktivieren Sie Echtzeitprüfungen. Mit der clientseitigen Geschwindigkeit können Sie Anwendungen mit niedriger Latenz erstellen und Ihren Nutzern sofort Feedback geben.
- Reduzieren oder optimieren Sie die serverseitige Arbeitslast. Sie können die serverseitige Arbeitslast und die Kosten für die Erkennung von schädlichen Inhalten senken. Zum einen können Ihre Hinweise für Nutzer dazu beitragen, die Anzahl schädlicher Kommentare zu reduzieren. Zum anderen können Sie bestimmte Kommentare als wahrscheinlich schädlich kennzeichnen, bevor sie auf Ihrem Server landen, und sie so bei Ihren serverseitigen Prüfungen priorisieren.
- Reduzieren Sie den manuellen Aufwand. Die Belastung der menschlichen Moderatoren verringern
Anwendungsfälle
Hier sind einige mögliche Gründe für die clientseitige Erkennung von schädlichen Inhalten:
- Sofortige Erkennung in Kommentarsystemen Nutzer, die unangemessene Kommentare verfassen, erhalten sofort Feedback und werden aufgefordert, ihre Nachricht vor dem Posten umzuformulieren. Mit clientseitiger KI ist dies ohne API-Schlüssel, ohne serverseitige Klassifizierungskosten bei der Laufzeit und mit geringer Latenz möglich. Das kann für Chat-Apps ideal sein.
- Echtzeit-Moderation im Livechat Du kannst schnell schädliche Nachrichten von Nutzern erkennen und melden, damit Moderatoren sofort eingreifen können.
Serverseitige Prüfungen beibehalten
Die clientseitige Erkennung von schädlichen Inhalten ist zwar schnell, kann aber von einem böswilligen Nutzer mit frontend-Kenntnissen deaktiviert werden. Außerdem ist kein System zur Erkennung von schädlichen Inhalten zu 100 % genau.
Aus diesen Gründen empfehlen wir Ihnen dringend, eine zusätzliche Überprüfung auf dem Server zu implementieren oder beizubehalten, anstatt sich nur auf die clientseitige Erkennung von schädlichen Inhalten zu verlassen. Sie können beispielsweise Ihre clientseitige Echtzeitprüfung mit einer asynchronen serverseitigen Überprüfung mithilfe der Perspective API ergänzen. Für einen umfassenden Ansatz können Sie diese mit der manuellen Moderation kombinieren.
Vorsichtsmaßnahmen
Für die clientseitige Erkennung von schädlichen Inhalten müssen Sie ein Klassifizierungsmodell und oft auch eine clientseitige KI-Bibliothek auf Ihre Website herunterladen.
Berücksichtigen Sie die Auswirkungen:
- Kosten für das Hosting und die Bereitstellung des Modells Das Modell ist möglicherweise groß.
- Leistung und UX Die Bibliothek und das Modell erhöhen die Größe des Bundles.
Berücksichtigen Sie die Vorteile, bevor Sie entscheiden, ob dies für Ihren Anwendungsfall geeignet ist. Wenden Sie Best Practices für die Leistung von clientseitiger KI an und speichern Sie das Modell im Cache, damit der Download nur einmal anfällt.
So funktioniert die Klassifizierung von schädlichen Inhalten
Bevor wir uns die vollständige Implementierung ansehen, sehen wir uns die wichtigsten Aspekte der Erkennung von schädlichen Inhalten an.
Ein Modell zur Erkennung von schädlichen Inhalten analysiert vorhandenen Text, anstatt neue Inhalte zu generieren (generative KI). Dies ist eine klassische NLP-Aufgabe (Natural Language Processing).
Die Erkennung von schädlichen Inhalten basiert auf Textklassifikatoren, die Text als wahrscheinlich schädlich oder harmlos kategorisieren. Klassifikatoren für unangemessene Inhalte nehmen Text als Eingabe an und weisen ihm verschiedene Labels für unangemessene Inhalte sowie eine Bewertung zu. Die Bewertungen reichen von 0 bis 1. Je höher der Wert, desto wahrscheinlicher ist es, dass die Eingabe unangemessen ist.
Die Erkennung von schädlichen Inhalten basiert auf Textklassifikatoren, die Text als wahrscheinlich schädlich oder harmlos kategorisieren.
Nehmen wir als Beispiel das Modell Xenova/toxic-bert, eine webkompatible Version von unitary/toxic-bert. Es gibt sechs Labels:
toxic
severe_toxic
insult
obscene
identity_hate
threat
Labels wie toxic
und severe_toxic
geben die allgemeine Toxizität an.
Andere Labels sind detaillierter. Sie identifizieren bestimmte Arten von Toxizität, z. B. identity_hate
(Mobbing oder Drohungen gegen die Identität einer Person, z. B. aufgrund ihrer ethnischen Herkunft, Religion oder Geschlechtsidentität) oder threat
(eine Äußerung, die die Absicht zum Verletzen ausdrückt).
Unterschiedliche Modelle zur Bestimmung von schädlichen Inhalten gehen bei der Klassifizierung unterschiedlich vor. Hier einige repräsentative Beispiele:
In diesem Beispiel enthält der folgende Eingabetext das Wort „Hass“ und richtet sich gegen eine Person. Daher ist der toxicity
-Wert hoch (0.92
). Da kein bestimmter Typ von Toxizität erkannt wurde, sind die anderen Werte niedrig.
Input: I hate you
Output of the toxicity classifier:
[
{ label: 'toxic', score: 0.9243140482902527 },
{ label: 'insult', score: 0.16187334060668945 },
{ label: 'obscene', score: 0.03452680632472038 },
{ label: 'identity_hate', score: 0.0223250575363636 },
{ label: 'threat', score: 0.16187334060668945 },
{ label: 'severe_toxic', score: 0.005651099607348442 }
]
Im nächsten Beispiel hat der Eingabetext insgesamt einen hasserfüllten Ton, weshalb ihm eine hohe toxicity
-Bewertung (0.92
) zugewiesen wird. Da explizit Schäden erwähnt werden, ist auch die threat
-Bewertung hoch (0.81
).
Input: I hate your garden, and I will kill your plants
Output of the toxicity classifier:
[
{ label: 'toxic', score: 0.9243140482902527 },
{ label: 'insult', score: 0.16187334060668945 },
{ label: 'obscene', score: 0.03452680632472038 },
{ label: 'identity_hate', score: 0.0223250575363636 },
{ label: 'threat', score: 0.819197041168808937 },
{ label: 'severe_toxic', score: 0.005651099607348442 }
]
Nächstes Video
Nachdem Sie den Kontext verstanden haben, können Sie mit dem Erstellen eines clientseitigen KI-Systems zur Erkennung von schädlichen Inhalten beginnen.