Yayınlanma tarihi: 30 Ekim 2024
Büyük dil modelleriyle (LLM'ler) özellik oluşturmak, geleneksel yazılım mühendisliğinden oldukça farklıdır. Geliştiricilerin, kesin olmayan sonuçları, giriş ön işleme ve sonuçları son işleme ile başa çıkmak için istem mühendisliğini öğrenmesi gerekir.
Bizimle paylaştığınız zorluklardan biri, LLM'lerden gelen çıktıları test etmenin, geçerliliğini ve kalitesini belirlemenin zaman almasıdır. Geliştiriciler genellikle farklı girişler kullanarak çıktıyı toplu olarak oluşturmaya ve ardından bunları insan yargısına göre manuel olarak doğrulamaya başvurur.
Farklı modellerin ve istemlerin sonuçlarını değerlendirmek için daha ölçeklenebilir bir yaklaşım, yargıç olarak LLM tekniğidir. Bu teknikte, model doğrulaması gerçek kişilere bırakılmak yerine başka bir LLM'ye devredilir. İkinci LLM, muhtemelen daha iyi akıl yürütme becerilerine sahip olan daha büyük, bulut tabanlı bir LLM olmalıdır.
Bu dokümanda, farklı modelleri karşılaştırmaya nasıl yaklaşabileceğinizi göstermek için özetleme yöntemini kullanıyoruz. Ayrıca, Gemma'dan Gemma 2'ye geçişte kalitede yaşanan iyileşmeyi de bonus olarak gösteriyoruz.
Karşılaştırma için modelleri seçme ve verileri hazırlama
Üç modelin özelliklerini özetleyerek değerlendirdik. Google'ın istemci tarafında çalışabilen iki açık modelinin sonuçlarını karşılaştırdık. Gemma ve Gemma 2 modellerinin her ikisi de 2 milyar parametre boyutundadır. Buna karşılık, daha büyük ve daha yetenekli bir bulut tabanlı modeli de değerlendirdik: Gemini 1.5 Flash.
İş, eğlence, siyaset, spor ve teknoloji gibi alanları kapsayan 2.225 BBC makalesinden oluşan bir veri kümesi kullandık ve seçilen modellerin her birini kullanarak her makalenin bir özetini oluşturduk. Tüm modellerde aynı istem kullanıldı:
Makaleyi bir paragrafta özetleyin.
Orijinal makaleleri ve oluşturulan özetlerini, her adımda kolayca erişilebilmesi için bir veritabanında depoladık.
Özetleri analiz edip puanlayacak bir jüri üyesi seçin
Özet kalitesini analiz etmek için Gemma 2 ve Gemma 2 2B tarafından oluşturulan özetlerin değerlendirilmesi amacıyla Gemini 1.5 Flash'ı kullandık. Özel yaklaşımımız, DeepEval özetleme metriğinin bir parçası olan uyuma dayanır.
Eşleşme, bir özete dahil edilen ifadelerin, özetin dayandığı orijinal içerikte desteklenme sıklığını ölçen bir metriktir.
Değerlendirme sürecini iki adıma ayırdık. İlk olarak modelden her özeti ayrı ifadelere ayırmasını istedik. Ardından, modelden her bir ifadenin orijinal makale metniyle desteklenip desteklenmediğini belirlemesini istedik.
Özetlerden beyanı ayıklama
Gemini 1.5 Flash'tan daha uzun metinleri ayrı ifadelere ayırmasını istedik. Örneğin:
Everton'un defans oyuncusu David Weir, takımının Liverpool'u yenerek Premier Lig'de ikinci sırada yer almasına rağmen Avrupa futboluyla ilgili söylentilere önem vermedi.
Gemini 1.5 Flash bu cümleyi aşağıdaki ifadelere ayırdı:
- "David Weir, Everton'da defans oyuncusu olarak oynuyor."
- "Everton şu anda Premiership'de ikinci sırada."
- "Everton son maçta Liverpool'u yendi."
- "David Weir, Avrupa futbolunda oynayan Everton'la ilgili tartışmayı en aza indirdi."
İfadeleri doğrulama
Ardından Gemini 1.5 Flash'tan, bölünmüş ifadelere kıyasla orijinal cümleyi analiz etmesini istedik. Model, her ifadenin geçerliliğini şu şekilde sınıflandırır:
- Evet: Beyan, orijinal metin tarafından desteklenmektedir.
- Hayır. İfade, orijinal metinle çelişiyor.
- Idk. Beyan destekleniyor mu yoksa orijinal metne aykırı mı olduğunu doğrulamak mümkün değildir.
Sonuçların analizi
Bu işlem, modelleri karşılaştırmak için kullanılabilecek iki metrikle sonuçlandı:
- Hizalamalı: Model, orijinal metin tarafından desteklenen ifadeler içeren özetler ne sıklıkta oluşturdu?
- Zenginlik: Model tarafından oluşturulan bir özetteki ortalama ifade sayısı.
Uyum
Uyumluluğu, en az bir ifadesi "Hayır" olarak işaretlenmiş özetlerin sayısını sayıp bu sayıyı toplam özet sayısına bölerek hesapladık.
Gemini 1.5 Flash modeli, %92'nin üzerinde en yüksek uyum puanlarına sahiptir. Yani gerçeklere bağlı kalmakta çok başarılıdır ve uydurma bilgilerden kaçınır.
Gemma 2 2B, %78,64'lük iyi bir puana sahip. Bu, iyi bir doğruluk düzeyini gösteriyor. Öte yandan, Gemma 2B'nin önceki sürümünün hizalama puanı daha düşüktür. Bu, orijinal metin tarafından desteklenmeyen bilgiler içerme olasılığının daha yüksek olduğu anlamına gelir.
Zenginlik
Model zenginliğini, her özet için model tarafından oluşturulan ifadelerin sayısının ortalamasını alarak hesapladık.
Gemma 2 2B, 9,1 ile en yüksek zenginlik puanına sahiptir. Bu, özetlerinin daha fazla ayrıntı ve önemli nokta içerdiğini gösterir. Gemini 1.5 Flash modelinin zenginlik puanları da 8,4'ü aşıyor. Gemma 2B'nin zenginlik puanları düşüktü. Bu da, orijinal metinden çok fazla önemli bilgi alamayabileceğini gösteriyordu.
Sonuç
Gemma 2 2B gibi istemci tarafında çalışabilen daha küçük modellerin yüksek kaliteli sonuçlar üretebileceğini belirledik. Gemini 1.5 Flash gibi bulut tabanlı modeller, orijinal makaleyle uyumlu özetler üretme ve önemli miktarda bilgi sunma konusunda uzman olsa da uygulama performansı, gizlilik ve güvenlik ihtiyaçları ve istemci tarafı yapay zeka geliştirip geliştirmeyeceğinize karar verirken sorabileceğiniz diğer sorularla birlikte bu farkı değerlendirmelisiniz.
Gemma 2 2B, Gemma 2B'ye kıyasla daha zengin ve daha uyumlu özetler oluşturabildiğinden Gemma model ailesinin yeteneklerinde belirgin bir gelişme var.
Kullanım alanlarınızı değerlendirme
Bu doküman, karar verme tekniği olarak LLM ile neler yapılabileceğinin yalnızca bir kısmını ele almıştır. Özetle bile daha fazla metriğe bakabilirsiniz ve sonuçlar farklılık gösterebilir. Örneğin, bir makaledeki önemli noktaları belirlemek için bir istem kullanarak kapsamı değerlendirebilir, ardından bu önemli noktaların her özet tarafından ele alınıp alınmadığını doğrulamak için farklı bir istem kullanabilirsiniz.
Metin yazma, metni yeniden yazma veya araştırma destekli üretme (RAG) gibi diğer kullanım alanları, aynı metrikler için farklı sonuçlara sahip olabilir veya değerlendirme için başka metrikler kullanmalıdır.
Bu yaklaşımı uygularken, kullanım alanlarınız için en uygun metriklerin hangileri olduğunu belirlemek amacıyla bir kişinin çıktıyı nasıl değerlendireceğini düşünün. DeepEval gibi, kullanım alanınıza uygun bir metrik grubuna sahip olabilecek mevcut çerçeveleri de incelemeniz faydalı olacaktır.
Modelleri değerlendirmek için LLM'yi uyguladınız mı? @ChromiumDev adresinden bulgularınızı bize tweetleyin veya LinkedIn'deki Geliştiriciler için Chrome ile paylaşın.