1. Bölüm: Online toksisiteyle mücadele için istemci tarafı yapay zeka

Maud Nalpas
Maud Nalpas

Yayınlanma tarihi: 13 Kasım 2024

Nefret söylemi, taciz ve internetteki kötüye kullanım yaygın bir sorun haline geldi. Toksik yorumlar önemli sesleri susturur ve kullanıcıları ve müşterileri uzaklaştırır. Toksik içerik algılama, kullanıcılarınızı korur ve daha güvenli bir internet ortamı oluşturur.

Bu iki bölümden oluşan seride, toksisiteyi kaynağından (kullanıcı klavyeleri) algılayıp azaltmak için yapay zekanın nasıl kullanılacağını inceliyoruz.

Bu ilk bölümde, bu yaklaşımın kullanım alanlarını ve avantajlarını ele alıyoruz.

İkinci bölümde, kod örnekleri ve kullanıcı deneyimi ipuçları da dahil olmak üzere uygulamayı paylaşıyoruz.

İstemci tarafında toksisite algılamayı neden gerçekleştirmelisiniz?

Yorum yayınlama demosu.
İstemci tarafında toksiklik algılama örneği: Bir kullanıcı yorum yazmaya son verdiğinde tarayıcıda toksiklik analizi çalıştırılır ve gerçek zamanlı olarak bir uyarı gösterilir. Demoyu inceleyin.

Avantajları

İstemci tarafında toksik içerik algılama, faydalı bir ilk savunma hattı ve sunucu tarafındaki kontrollerin mükemmel bir tamamlayıcısıdır. İstemci tarafında toksisite algılama birçok avantaj sunar:

  • Kötü niyetli davranışları erken tespit edin. İstemci tarafı kontrolleri sayesinde, sunucuya dokunmadan toksisiteyi kaynağında yakalayabilirsiniz.
  • Anlık kontrolleri etkinleştirin. Düşük gecikmeli uygulamalar oluşturmak ve kullanıcılarınıza anında geri bildirim sağlamak için istemci tarafı hızını kullanın.
  • Sunucu tarafı iş yükünü azaltın veya optimize edin. Sunucu tarafında toksik içerik algılamayla ilgili iş yükünüzü ve maliyetlerinizi azaltın: Öncelikle, kullanıcılara yönelik ipuçlarınızın toksik yorumların hacmini azaltmaya yardımcı olabileceği için, ancak aynı zamanda belirli yorumları sunucunuza ulaşmadan önce toksik olma olasılığı yüksek olarak işaretlemenin, sunucu tarafındaki kontrollerinizde bu yorumlara öncelik vermenize yardımcı olacağı için.
  • İnsan yükünü azaltın. Gerçek kişilerden oluşan moderatörlerin üzerindeki yükü azaltın.

Kullanım alanları

İstemci tarafında toksisite algılama oluşturmanın olası nedenlerinden bazıları şunlardır:

  • Yorum sistemlerinde anında algılama Rahatsız edici yorumlar yazan kullanıcılara anında geri bildirim vererek mesajlarını yayınlamadan önce yeniden ifade etmelerini isteyin. İstemci tarafı yapay zeka ile bunu API anahtarı, çalışma zamanında sunucu tarafı sınıflandırma maliyetleri ve düşük gecikme süresi olmadan yapabilirsiniz. Bu, sohbet uygulamaları için ideal olabilir.
  • Canlı sohbette gerçek zamanlı moderasyon Kullanıcılardan gelen zararlı mesajları hızlıca tespit edip işaretleyerek moderatörlerin hemen müdahale etmesine olanak tanıyın.

Sunucu tarafı kontrollerinizi sürdürün

İstemci tarafında toksisite algılama hızlı olsa da kötü amaçlı ve ön uç konusunda bilgili bir kullanıcı bunu devre dışı bırakabilir. Ayrıca, hiçbir toksisite algılama sistemi %100 doğru değildir.

Bu nedenlerle, yalnızca istemci tarafında toksisite algılamasına güvenmek yerine, sunucu üzerinden ek bir inceleme uygulamanızı veya uygulamaya devam etmenizi önemle tavsiye ederiz. Örneğin, Perspective API'yi kullanarak gerçek zamanlı istemci tarafı kontrolünüzü sunucu tarafında eşzamansız bir incelemeyle tamamlayın. Kapsamlı bir yaklaşım için bu yöntemleri gerçek kişiler tarafından yapılan moderasyonla birleştirebilirsiniz.

Uyarılar

İstemci tarafında toksisite algılama için web sayfanıza bir sınıflandırma modeli ve genellikle istemci tarafı yapay zeka kitaplığı indirmeniz gerekir.

Sonuçları göz önünde bulundurun:

  • Model barındırma ve yayınlama maliyetleri. Model büyük olabilir.
  • Performans ve kullanıcı deneyimi. Kitaplık ve model, paketinizin boyutunu artırır.

Bu özelliğin kullanım alanınız için uygun olup olmadığına karar vermeden önce avantajlarını göz önünde bulundurun. İstemci tarafı yapay zeka için performansla ilgili en iyi uygulamaları uygulayın ve modeli önbelleğe alın. Böylece, indirme işlemi tek seferlik bir maliyet olur.

İçerik toksisitesi sınıflandırmasının işleyiş şekli

Tam uygulamaya göz atmadan önce toksisite algılamanın temel özelliklerine göz atın.

Zararlı içerik algılama modeli, yeni içerik oluşturmak (üretken yapay zeka) yerine mevcut metni analiz eder. Bu, klasik bir NLP (Doğal Dil İşleme) görevidir.

Doğal dil işleme görevleri. Kaynak: HuggingFace.

Kötü niyetli davranış tespiti, metni muhtemelen kötü niyetli veya zararsız olarak sınıflandıran metin sınıflandırıcılarına dayanır. Kötü niyetli davranış sınıflandırıcıları, metni giriş olarak alır ve metne bir puanla birlikte çeşitli kötü niyetli davranış etiketleri atar. Puanlar 0 ile 1 arasında değişir. Daha yüksek puanlar, girişin zararlı olma olasılığının daha yüksek olduğunu gösterir.

Kötü niyetli davranış tespiti, metni muhtemelen kötü niyetli veya zararsız olarak sınıflandıran metin sınıflandırıcılarına dayanır.

Kullanıcı girişi sınıflandırılır ve puanlanır.

unitary/toxic-bert modelinin web uyumlu bir sürümü olan Xenova/toxic-bert modelini örnek olarak alalım. Altı etiket sunar:

  • toxic
  • severe_toxic
  • insult
  • obscene
  • identity_hate
  • threat

toxic ve severe_toxic gibi etiketler genel toksisiteyi gösterir.

Diğer etiketler daha ayrıntılıdır. Örneğin identity_hate (bir kişinin kimliğiyle ilgili (ör. ırk, din, cinsiyet kimliği vb.) zorbalık veya tehditler) ya da threat (zarar verme niyetiyle ilgili bir beyan) gibi belirli toksiklik türlerini tanımlar.

Farklı toksisite modelleri, sınıflandırmaya farklı yaklaşımlar sunar. Aşağıda birkaç örnek verilmiştir.

Bu örnekte, aşağıdaki giriş "nefret" kelimesini içeriyor ve bir kişiye yönelik olduğu için toxicity puanı yüksek (0.92). Belirli bir toksisite türü tanımlanmadığı için diğer puanlar düşüktür.

Input: I hate you
Output of the toxicity classifier:
[
{ label: 'toxic', score: 0.9243140482902527 },
{ label: 'insult', score: 0.16187334060668945 },
{ label: 'obscene', score: 0.03452680632472038 },
{ label: 'identity_hate', score: 0.0223250575363636 },
{ label: 'threat', score: 0.16187334060668945 },
{ label: 'severe_toxic', score: 0.005651099607348442 }
]

Sonraki örnekte, girişin genel tonu nefret barındırdığı için yüksek bir toxicity puanı (0.92) verilmiştir. Zarardan açıkça bahsedildiği için threat puanı da yüksektir (0.81).

Input: I hate your garden, and I will kill your plants
Output of the toxicity classifier:
[
{ label: 'toxic', score: 0.9243140482902527 },
{ label: 'insult', score: 0.16187334060668945 },
{ label: 'obscene', score: 0.03452680632472038 },
{ label: 'identity_hate', score: 0.0223250575363636 },
{ label: 'threat', score: 0.819197041168808937 },
{ label: 'severe_toxic', score: 0.005651099607348442 }
]

Sıradaki

Bağlamı anladığınıza göre istemci tarafı yapay zeka toksisitesi algılama sistemi oluşturmaya başlayabilirsiniz.

İKİNCİ BÖLÜMÜ OKUYUN