Yayınlanma tarihi: 30 Ekim 2024
Büyük dil modelleriyle (LLM'ler) özellik oluşturmak, geleneksel yazılım mühendisliğinden oldukça farklıdır. Geliştiricilerin, kesin olmayan sonuçları, giriş ön işleme ve sonuçları son işleme ile başa çıkmak için istem mühendisliğini öğrenmesi gerekir.
Bizimle paylaştığınız zorluklardan biri, LLM'lerden gelen çıktıları test etmenin, geçerliliğini ve kalitesini belirlemenin zaman almasıdır. Geliştiriciler genellikle farklı girişler kullanarak çıktıyı toplu olarak oluşturmaya ve ardından bunları insan yargısına göre manuel olarak doğrulamaya başvurur.
Farklı modellerin ve istemlerin sonuçlarını değerlendirmek için daha ölçeklenebilir bir yaklaşım, yargıç olarak LLM tekniğidir. Bu teknikte, model doğrulaması gerçek kişilere bırakılmak yerine başka bir LLM'ye devredilir. İkinci LLM, daha büyük ve bulut tabanlı bir LLM olmalıdır. Bu LLM'nin daha iyi akıl yürütme özelliklerine sahip olması muhtemeldir.
Bu dokümanda, farklı modelleri karşılaştırmaya nasıl yaklaşabileceğinizi göstermek ve ek olarak, Gemma'dan Gemma 2'ye kalitedeki iyileşmeyi göstermek için özetlemeyi kullanacağız.
Karşılaştırma için modelleri seçme ve verileri hazırlama
Üç modelin özetlemedeki özelliklerini değerlendirdik. Google'ın, istemci taraflı çalıştırabilen açık modellerinden ikisi olan Gemma ve Gemma 2'nin sonuçlarını, her ikisi de 2 milyarlık parametre boyutunda olanları karşılaştırdık. Buna karşılık, daha büyük ve daha yetenekli bir bulut tabanlı modeli de değerlendirdik: Gemini 1.5 Flash.
İş, eğlence, siyaset, spor ve teknoloji gibi alanları kapsayan 2.225 BBC makalesinden oluşan bir veri kümesi kullandık ve seçilen modellerin her birini kullanarak her makalenin bir özetini oluşturduk. Tüm modellerde aynı istem kullanıldı:
Makaleyi tek bir paragrafta özetlemek.
Orijinal makaleleri ve oluşturulan özetlerini, her adımda kolayca erişilebilmesi için bir veritabanında depoladık.
Özetleri analiz etmek ve puanlamak için bir jüri seçin
Özet kalitesini analiz etmek için Gemma 2B ve Gemma 2 2B tarafından oluşturulan özetlerin değerlendirilmesi amacıyla Gemini 1.5 Flash'ı kullandık. Özel yaklaşımımız, DeepEval özetleme metriğinin bir parçası olan uyuma dayanır.
Eşleşme, bir özete dahil edilen ifadelerin, özetin dayandığı orijinal içerikte desteklenme sıklığını ölçen bir metriktir.
Değerlendirme sürecini iki adıma ayırdık. İlk olarak modelden her özeti ayrı ifadelere ayırmasını istedik. Ardından, modelden her bir ifadenin orijinal makale metni tarafından desteklenip desteklenmediğini belirlemesini istedik.
Özetlerden ifadeyi çıkar
Gemini 1.5 Flash'tan daha uzun metinleri ayrı ifadelere ayırmasını istedik. Örneğin:
Everton'un defans oyuncusu David Weir, takımının Liverpool'u yenerek Premier Lig'de ikinci sırada yer almasına rağmen Avrupa futboluyla ilgili söylentilere önem vermedi.
Gemini 1.5 Flash bu cümleyi aşağıdaki ifadelere ayırdı:
- "David Weir, Everton'da defans oyuncusu olarak oynuyor."
- "Everton şu anda Premiership'te ikinci sırada."
- "Everton, son maçta Liverpool'u yendi."
- "David Weir, Avrupa futbolunda oynayan Everton'la ilgili tartışmayı en aza indirdi."
İfadeleri doğrulama
Ardından Gemini 1.5 Flash'tan, bölünmüş ifadelere kıyasla orijinal cümleyi analiz etmesini istedik. Model, her bir ifadenin geçerliliğini şu şekilde sınıflandırdı:
- Evet: Beyan, orijinal metin tarafından desteklenmektedir.
- Hayır. Beyan, orijinal metinle çelişiyor.
- Idk. Bu ifadenin desteklenip desteklenmediğini veya orijinal metinle çelişip çelişmediğini doğrulamak mümkün değildir.
Sonuçların analizi
Bu işlem, modelleri karşılaştırmak için kullanılabilecek iki metrikle sonuçlandı:
- Hizalamalı: Model, orijinal metin tarafından desteklenen ifadeler içeren özetler ne sıklıkta oluşturdu?
- Zenginlik: Model tarafından oluşturulan bir özetteki ortalama ifade sayısı.
Uyum
Uyumluluğu, en az bir ifadesi "Hayır" olarak işaretlenmiş özetlerin sayısını sayıp bu sayıyı toplam özet sayısına bölerek hesapladık.
Gemini 1.5 Flash modeli, %92'nin üzerinde en yüksek uyum puanlarına sahiptir. Yani gerçeklere bağlı kalmakta çok başarılıdır ve uydurma bilgilerden kaçınır.
Gemma 2 2B, %78,64'lük iyi bir puana sahip. Bu, iyi bir doğruluk düzeyini gösteriyor. Bu sırada Gemma 2B'nin önceki sürümünün hizalama puanı daha düşüktür. Yani, orijinal metinde desteklenmeyen bilgileri ekleme olasılığı daha yüksektir.
Zenginlik
Model zenginliğini, her özet için model tarafından oluşturulan ifadelerin sayısının ortalamasını alarak hesapladık.
Gemma 2 2B, 9,1 ile en yüksek zenginlik puanına sahiptir. Bu, özetlerinin daha fazla ayrıntı ve önemli nokta içerdiğini gösterir. Gemini 1.5 Flash modelinin zenginlik puanları da 8,4'ü aşıyor. Gemma 2B'nin zenginlik puanları daha düşüktü. Bu, orijinal metindeki önemli bilgilerin çoğunu yakalayamayacağını gösteriyor.
Sonuç
Gemma 2 2B gibi istemci taraflı çalıştırabilen daha küçük modellerin çok kaliteli çıktılar oluşturabildiğini belirledik. Gemini 1.5 Flash gibi bulut tabanlı modeller, orijinal makaleyle uyumlu ve önemli miktarda bilgi içeren özetler oluşturma konusunda başarılı olsa da bu farkın, uygulama performansı, gizlilik ve güvenlik ihtiyaçları ve istemci tarafı yapay zeka oluşturmanız gerekip gerekmediğini belirlerken soracağınız diğer sorularla birlikte değerlendirilmesi gerekir.
Gemma 2 2B, Gemma 2B'ye kıyasla daha zengin ve daha uyumlu özetler oluşturabildiğinden Gemma model ailesinin yeteneklerinde belirgin bir gelişme var.
Kullanım alanlarınızı değerlendirme
Bu doküman, karar verme tekniği olarak LLM ile neler yapılabileceğinin yalnızca bir kısmını ele almıştır. Özetle bile daha fazla metriğe bakabilirsiniz ve sonuçlar farklılık gösterebilir. Örneğin, bir makaledeki önemli noktaları belirlemek için bir istem kullanarak kapsamı değerlendirebilir, ardından bu önemli noktaların her özetin kapsamına girip girmediğini doğrulamak için farklı bir istem kullanabilirsiniz.
Metin yazma, metni yeniden yazma veya araştırma destekli üretme (RAG) gibi diğer kullanım alanları, aynı metrikler için farklı sonuçlara sahip olabilir veya değerlendirme için başka metrikler kullanmalıdır.
Bu yaklaşımı uygularken, kullanım alanlarınız için en uygun metriklerin hangileri olduğunu belirlemek amacıyla bir kişinin çıktıyı nasıl değerlendireceğini düşünün. DeepEval gibi, kullanım alanınıza uygun bir metrik grubuna sahip olabilecek mevcut çerçeveleri de incelemeniz faydalı olacaktır.
Modelleri değerlendirmek için LLM'yi uyguladınız mı? @ChromiumDev adresinden bulgularınızı bize tweetleyin veya LinkedIn'deki Geliştiriciler için Chrome ile paylaşın.