Yayınlanma tarihi: 30 Ekim 2024
Büyük dil modelleriyle (LLM'ler) özellik oluşturmak, geleneksel yazılım mühendisliğinden oldukça farklıdır. Geliştiricilerin, kesin olmayan sonuçları, giriş ön işleme ve sonuçları son işleme ile başa çıkmak için istem mühendisliğini öğrenmesi gerekir.
Bizimle paylaştığınız zorluklardan biri, LLM'lerden gelen çıktıları test etmenin, geçerliliğini ve kalitesini belirlemenin zaman almasıdır. Geliştiriciler genellikle farklı girişler kullanarak çıktıyı toplu olarak oluşturmaya ve ardından bunları insan yargısına göre manuel olarak doğrulamaya başvurur.
Farklı modellerin ve istemlerin sonuçlarını değerlendirmek için daha ölçeklenebilir bir yaklaşım, yargıç olarak LLM tekniğidir. Bu teknikte, model doğrulaması gerçek kişilere bırakılmak yerine başka bir LLM'ye devredilir. İkinci LLM, daha büyük ve bulut tabanlı bir LLM olmalıdır. Bu LLM'nin daha iyi akıl yürütme özelliklerine sahip olması muhtemeldir.
Bu dokümanda, farklı modelleri karşılaştırmaya nasıl yaklaşabileceğinizi göstermek için özetleme yöntemini kullanıyoruz. Ayrıca, Gemma'dan Gemma 2'ye kalitede yapılan iyileştirmeyi de bonus olarak gösteriyoruz.
Karşılaştırma için modelleri seçme ve verileri hazırlama
Üç modelin özetlemedeki özelliklerini değerlendirdik. Google'ın istemci tarafında çalışabilen iki açık modelinin sonuçlarını karşılaştırdık. Gemma ve Gemma 2 modellerinin her ikisi de 2 milyar parametre boyutundadır. Buna karşılık, daha büyük ve daha yetenekli bir bulut tabanlı modeli de değerlendirdik: Gemini 1.5 Flash.
İş, eğlence, siyaset, spor ve teknoloji gibi alanları kapsayan 2.225 BBC makalesinden oluşan bir veri kümesi kullandık ve seçilen modellerin her birini kullanarak her makalenin bir özetini oluşturduk. Tüm modellerde aynı istem kullanıldı:
Makaleyi bir paragrafta özetleyin.
Orijinal makaleleri ve oluşturulan özetlerini, her adımda kolayca erişilebilmesi için bir veritabanında depoladık.
Özetleri analiz edip puanlayacak bir jüri üyesi seçin
Özet kalitesini analiz etmek için Gemma 2B ve Gemma 2 2B tarafından oluşturulan özetlerin değerlendirilmesi amacıyla Gemini 1.5 Flash'ı kullandık. Özel yaklaşımımız, DeepEval özetleme metriğinin bir parçası olan uyuma dayanır.
Eşleşme, bir özete dahil edilen ifadelerin, özetin dayandığı orijinal içerikte desteklenme sıklığını ölçen bir metriktir.
Değerlendirme sürecini iki adıma ayırdık. İlk olarak modelden her özeti ayrı ifadelere ayırmasını istedik. Ardından, modelden her bir ifadenin orijinal makale metniyle desteklenip desteklenmediğini belirlemesini istedik.
Özetlerden beyanları ayıklama
Gemini 1.5 Flash'tan daha uzun metinleri ayrı ifadelere ayırmasını istedik. Örneğin:
Everton'un defans oyuncusu David Weir, takımının Liverpool'u yenerek Premier Lig'de ikinci sırada yer almasına rağmen Avrupa futboluyla ilgili söylentilere önem vermedi.
Gemini 1.5 Flash bu cümleyi aşağıdaki ifadelere ayırdı:
- "David Weir, Everton'da defans oyuncusu olarak oynuyor."
- "Everton şu anda Premier Lig'de ikinci sırada."
- "Everton, son maçta Liverpool'u yendi."
- "David Weir, Everton'un Avrupa futbolunda oynaması hakkındaki tartışmaları azalttı."
İfadeleri doğrulama
Ardından Gemini 1.5 Flash'tan, bölünmüş ifadelere kıyasla orijinal cümleyi analiz etmesini istedik. Model, her bir ifadenin geçerliliğini şu şekilde sınıflandırdı:
- Evet: Beyan, orijinal metin tarafından desteklenmektedir.
- Hayır. Beyan, orijinal metinle çelişiyor.
- Idk. Beyan destekleniyor mu yoksa orijinal metne aykırı mı olduğunu doğrulamak mümkün değildir.
Sonuçların analizi
Bu işlem, modelleri karşılaştırmak için kullanılabilecek iki metrikle sonuçlandı:
- Hizalamalı: Model, orijinal metin tarafından desteklenen ifadeler içeren özetler ne sıklıkta oluşturdu?
- Zenginlik: Model tarafından oluşturulan bir özetteki ortalama ifade sayısı.
Uyum
Uyumluluğu, en az bir ifadesi "Hayır" olarak işaretlenmiş özetlerin sayısını sayıp bu sayıyı toplam özet sayısına bölerek hesapladık.
Gemini 1.5 Flash modeli, %92'nin üzerinde en yüksek uyum puanlarına sahiptir. Yani gerçeklere bağlı kalmakta çok başarılıdır ve uydurma bilgilerden kaçınır.
Gemma 2 2B, %78,64'lük iyi bir puana sahiptir.Bu, iyi bir doğruluk düzeyini gösterir. Öte yandan, Gemma 2B'nin önceki sürümünün hizalama puanı daha düşüktür. Bu, orijinal metin tarafından desteklenmeyen bilgiler içerme olasılığının daha yüksek olduğu anlamına gelir.
Zenginlik
Model zenginliğini, her özet için model tarafından oluşturulan ifadelerin sayısının ortalamasını alarak hesapladık.
Gemma 2 2B, 9,1 ile en yüksek zenginlik puanına sahiptir.Bu, özetlerinin daha fazla ayrıntı ve önemli nokta içerdiğini gösterir. Gemini 1.5 Flash modeli, 8,4'ü aşan yüksek zenginlik puanlarına da sahiptir. Gemma 2B'nin zenginlik puanları daha düşüktü. Bu, orijinal metindeki önemli bilgilerin çoğunu yakalayamayacağını gösteriyor.
Sonuç
Gemma 2 2B gibi istemci tarafında çalışabilen daha küçük modellerin yüksek kaliteli sonuçlar üretebileceğini belirledik. Gemini 1.5 Flash gibi bulut tabanlı modeller, orijinal makaleyle uyumlu ve önemli miktarda bilgi içeren özetler oluşturma konusunda mükemmel olsa da bu farkın, uygulama performansı, gizlilik ve güvenlik ihtiyaçları ve istemci tarafı yapay zeka oluşturmanız gerekip gerekmediğini belirlerken soracağınız diğer sorularla birlikte değerlendirilmesi gerekir.
Gemma 2 2B, Gemma 2B'ye kıyasla daha zengin ve daha uyumlu özetler oluşturabildiğinden Gemma model ailesinin yeteneklerinde belirgin bir gelişme var.
Kullanım alanlarınızı değerlendirme
Bu dokümanda, karar verme tekniği olarak LLM ile neler yapılabileceğine dair yalnızca bir genel bakış sunulmuştur. Özetleme yapılsa bile daha fazla metriğe bakabilirsiniz ve sonuçlar farklı olabilir. Örneğin, bir makaledeki önemli noktaları belirlemek için bir istem kullanarak kapsamı değerlendirebilir, ardından bu önemli noktaların her özet tarafından ele alınıp alınmadığını doğrulamak için farklı bir istem kullanabilirsiniz.
Metin yazma, metni yeniden yazma veya araştırma destekli üretme (RAG) gibi diğer kullanım alanları, aynı metrikler için farklı sonuçlara sahip olabilir veya değerlendirme için başka metrikler kullanılmalıdır.
Bu yaklaşımı uygularken, kullanım alanlarınız için en iyi metriklerin hangileri olduğunu belirlemek üzere bir kişinin çıktıyı nasıl değerlendireceğini düşünün. DeepEval gibi, kullanım alanınıza uygun bir metrik grubuna sahip olabilecek mevcut çerçeveleri de incelemeniz faydalı olacaktır.
Modelleri değerlendirmek için LLM'yi uyguladınız mı? @ChromiumDev adresinden bulgularınızı bize tweetleyin veya LinkedIn'deki Geliştiriciler için Chrome ile paylaşın.