Dipublikasikan: 13 November 2024
Ujaran kebencian, pelecehan, dan pelecehan online telah menjadi masalah yang meluas di internet. Komentar beracun membungkam suara penting dan mengusir pengguna dan pelanggan. Deteksi konten beracun melindungi pengguna Anda dan menciptakan lingkungan online yang lebih aman.
Dalam serial dua bagian ini, kita akan mempelajari cara menggunakan AI untuk mendeteksi dan mengurangi konten beracun di sumbernya: keyboard pengguna.
Di bagian pertama ini, kita akan membahas kasus penggunaan dan manfaat pendekatan ini.
Di bagian kedua, kami membagikan penerapannya, termasuk contoh kode dan tips UX.
Alasan melakukan deteksi toksisitas sisi klien
Manfaat
Deteksi toksisitas sisi klien adalah pertahanan pertama yang berguna, dan merupakan pelengkap yang bagus untuk pemeriksaan sisi server. Deteksi toksisitas sisi klien menawarkan beberapa manfaat:
- Deteksi toksisitas sejak dini. Dengan pemeriksaan sisi klien, Anda dapat mendeteksi konten beracun di sumbernya, tanpa menyentuh server.
- Aktifkan pemeriksaan real-time. Gunakan kecepatan sisi klien untuk mem-build aplikasi latensi rendah dan memberikan masukan instan kepada pengguna Anda.
- Kurangi atau optimalkan beban kerja sisi server. Kurangi beban kerja sisi server dan biaya untuk deteksi toksisitas: pertama, karena petunjuk yang ditampilkan kepada pengguna mungkin membantu mengurangi volume komentar beracun, tetapi juga karena menandai komentar tertentu sebagai kemungkinan beracun sebelum komentar tersebut masuk ke server membantu Anda memprioritaskan komentar tersebut dalam pemeriksaan sisi server.
- Mengurangi beban manusia. Mengurangi beban moderator manusia.
Kasus penggunaan
Berikut beberapa kemungkinan alasan untuk membuat deteksi toksisitas sisi klien:
- Deteksi langsung di sistem komentar. Berikan masukan langsung kepada pengguna yang membuat draf komentar negatif, dengan mendorong mereka untuk menyusun ulang pesan mereka sebelum memposting. Dengan AI sisi klien, Anda dapat melakukannya tanpa kunci API, tanpa biaya klasifikasi sisi server runtime, dan latensi rendah. Hal ini dapat menjadi ideal untuk aplikasi chat.
- Moderasi real-time di live chat. Mengidentifikasi dan melaporkan pesan berbahaya dari pengguna dengan cepat, sehingga moderator dapat segera melakukan intervensi.
Mempertahankan pemeriksaan sisi server
Meskipun deteksi toksisitas sisi klien cepat, pengguna frontend berbahaya dapat menonaktifkannya. Selain itu, tidak ada sistem deteksi toksisitas yang 100% akurat.
Karena alasan ini, sebaiknya Anda tetap menerapkan, atau mempertahankan, peninjauan tambahan dengan server, bukan hanya mengandalkan deteksi toksisitas sisi klien. Misalnya, lengkapi pemeriksaan sisi klien real-time Anda dengan peninjauan sisi server asinkron menggunakan Perspective API. Untuk pendekatan yang komprehensif, Anda dapat menggabungkannya dengan moderasi manusia.
Peringatan
Deteksi toksisitas sisi klien memerlukan download model klasifikasi ke halaman web Anda, dan sering kali library AI sisi klien.
Pertimbangkan implikasinya:
- Biaya hosting dan penayangan model. Model mungkin berukuran besar.
- Performa dan UX. Library dan model akan meningkatkan ukuran paket Anda.
Pertimbangkan manfaatnya sebelum memutuskan apakah hal ini tepat untuk kasus penggunaan Anda. Terapkan praktik terbaik performa untuk AI sisi klien dan simpan model dalam cache sehingga download menjadi biaya satu kali.
Cara kerja klasifikasi toksisitas konten
Sebelum kita melihat penerapan penuh, lihat dasar-dasar deteksi toksisitas.
Model deteksi toksisitas menganalisis teks yang ada, bukan menghasilkan konten baru (AI generatif). Ini adalah tugas NLP (Natural Language Processing) klasik.
Deteksi toksisitas mengandalkan pengklasifikasi teks yang mengategorikan teks sebagai kemungkinan toksik atau tidak berbahaya. Pengklasifikasi toksisitas menggunakan teks sebagai input dan menetapkan berbagai label toksisitas, beserta skor. Rentang skor mulai dari 0 hingga 1. Skor yang lebih tinggi menunjukkan bahwa input lebih cenderung bersifat beracun.
Deteksi toksisitas mengandalkan pengklasifikasi teks yang mengategorikan teks sebagai kemungkinan toksik atau tidak berbahaya.
Ambil contoh model Xenova/toxic-bert, versi unitary/toxic-bert yang kompatibel dengan web. Layanan ini menawarkan enam label:
toxic
severe_toxic
insult
obscene
identity_hate
threat
Label seperti toxic
dan severe_toxic
menunjukkan toksisitas secara keseluruhan.
Label lainnya lebih terperinci. Model ini mengidentifikasi jenis toksisitas tertentu,
misalnya identity_hate
(penindasan atau ancaman terkait identitas seseorang, seperti
ras, agama, identitas gender, dan sebagainya) atau threat
(pernyataan
niat untuk menimbulkan kerusakan).
Model toksisitas yang berbeda memiliki cara yang berbeda untuk mendekati klasifikasi. Berikut beberapa contoh representatif.
Dalam contoh ini, input berikut menyertakan kata "kebencian" dan ditujukan kepada seseorang, sehingga skor toxicity
tinggi (0.92
). Tidak ada jenis toksisitas spesifik yang telah diidentifikasi, sehingga skor lainnya rendah.
Input: I hate you
Output of the toxicity classifier:
[
{ label: 'toxic', score: 0.9243140482902527 },
{ label: 'insult', score: 0.16187334060668945 },
{ label: 'obscene', score: 0.03452680632472038 },
{ label: 'identity_hate', score: 0.0223250575363636 },
{ label: 'threat', score: 0.16187334060668945 },
{ label: 'severe_toxic', score: 0.005651099607348442 }
]
Pada contoh berikutnya, input memiliki nada kebencian secara keseluruhan, sehingga diberi skor toxicity
tinggi (0.92
). Karena menyebutkan kerusakan secara eksplisit, skor threat
juga tinggi (0.81
).
Input: I hate your garden, and I will kill your plants
Output of the toxicity classifier:
[
{ label: 'toxic', score: 0.9243140482902527 },
{ label: 'insult', score: 0.16187334060668945 },
{ label: 'obscene', score: 0.03452680632472038 },
{ label: 'identity_hate', score: 0.0223250575363636 },
{ label: 'threat', score: 0.819197041168808937 },
{ label: 'severe_toxic', score: 0.005651099607348442 }
]
Berikutnya
Setelah memahami konteksnya, Anda dapat mulai mem-build sistem deteksi toksisitas AI sisi klien.