Dipublikasikan: 30 Oktober 2024
Mem-build fitur dengan model bahasa besar (LLM) sangat berbeda dengan rekayasa software konvensional. Developer perlu mempelajari teknik prompt untuk menangani hasil non-deterministik, input prapemrosesan, dan hasil pascapemrosesan.
Salah satu tantangan yang telah Anda sampaikan kepada kami adalah menguji output dari LLM, menentukan validitas dan kualitas, memerlukan waktu yang lama. Developer sering kali menggunakan batch untuk menghasilkan output menggunakan input yang berbeda, lalu memvalidasinya secara manual menggunakan penilaian manusia.
Pendekatan yang lebih skalabel untuk mengevaluasi hasil berbagai model dan perintah adalah teknik LLM sebagai hakim. Dengan teknik ini, validasi model didelegasikan ke LLM lain, bukan mengandalkan penilaian manusia. LLM kedua harus berupa LLM berbasis cloud yang lebih besar, yang kemungkinan memiliki kemampuan penalaran yang lebih baik.
Dalam dokumen ini, kami menggunakan peringkasan untuk menunjukkan cara Anda dapat membandingkan berbagai model dan, sebagai bonus, menunjukkan peningkatan kualitas dari Gemma ke Gemma 2.
Memilih model untuk perbandingan dan menyiapkan data
Kami mengevaluasi kemampuan tiga model dalam membuat ringkasan. Kami membandingkan hasil dari dua model terbuka Google yang dapat menjalankan sisi klien, Gemma dan Gemma 2, dalam ukuran 2 miliar parameter. Sebagai kontras, kami juga mengevaluasi model berbasis cloud yang lebih besar dan lebih mampu: Gemini 1.5 Flash.
Kami menggunakan set data yang berisi 2.225 artikel BBC, yang mencakup berbagai bidang seperti bisnis, hiburan, politik, olahraga, dan teknologi, dan kami membuat ringkasan setiap artikel, menggunakan setiap model yang dipilih. Prompt yang sama digunakan di semua model:
Ringkas artikel dalam satu paragraf.
Kami menyimpan artikel asli dan membuat ringkasan dalam database sehingga dapat diakses dengan mudah di setiap langkah.
Pilih juri untuk menganalisis dan menilai ringkasan
Untuk menganalisis kualitas ringkasan, kami menggunakan Gemini 1.5 Flash untuk menilai ringkasan yang dibuat oleh Gemma 2 dan Gemma 2 2B. Pendekatan spesifik kami didasarkan pada penyelarasan, yang merupakan bagian dari metrik ringkasan DeepEval.
Penyesuaian adalah metrik yang mengukur frekuensi pernyataan yang disertakan dalam ringkasan didukung dalam konten asli yang menjadi dasar ringkasan.
Kami membagi proses evaluasi menjadi dua langkah. Pertama, kita meminta model untuk membagi setiap ringkasan menjadi pernyataan terpisah. Kemudian, kami meminta model untuk menentukan apakah setiap pernyataan didukung oleh teks artikel asli.
Mengekstrak pernyataan dari ringkasan
Kami meminta Gemini 1.5 Flash untuk membagi teks yang lebih panjang menjadi pernyataan terpisah. Contoh:
Bek Everton David Weir telah meredam pembicaraan tentang sepak bola Eropa, meskipun timnya berada di posisi kedua di Liga Inggris setelah mengalahkan Liverpool.
Gemini 1.5 Flash membagi kalimat ini menjadi pernyataan berikut:
- "David Weir bermain sebagai bek untuk Everton."
- "Everton saat ini berada di posisi kedua di Premiership."
- "Everton mengalahkan Liverpool dalam pertandingan terakhir."
- "David Weir telah meminimalkan diskusi tentang bermain Everton di sepak bola Eropa."
Memvalidasi pernyataan
Kemudian, kami meminta Gemini 1.5 Flash untuk menganalisis kalimat asli, dibandingkan dengan pernyataan yang dipisah. Model ini mengklasifikasikan validitas setiap pernyataan sebagai:
- Ya: Pernyataan didukung oleh teks asli.
- Tidak. Pernyataan tersebut bertentangan dengan teks aslinya.
- Idk. Tidak mungkin memverifikasi apakah pernyataan didukung atau bertentangan dengan teks aslinya.
Analisis hasil
Proses ini menghasilkan dua metrik yang dapat digunakan untuk membandingkan model:
- Penyesuaian: Seberapa sering model menghasilkan ringkasan yang berisi pernyataan yang didukung oleh teks asli.
- Kekayaan: Jumlah rata-rata pernyataan yang terdapat dalam ringkasan yang dihasilkan oleh model.
Perataan
Kami menghitung keselarasan dengan menghitung jumlah ringkasan yang memiliki minimal satu pernyataan yang ditandai sebagai "Tidak", dan membaginya dengan jumlah total ringkasan.
Model Gemini 1.5 Flash memiliki skor perataan tertinggi, yaitu melebihi 92%. Artinya, AI ini sangat baik dalam berpegang pada fakta dan menghindari mengada-ada.
Gemma 2 2B memiliki skor yang baik sebesar 78,64%, yang menunjukkan tingkat akurasi yang baik. Sementara itu, Gemma 2B versi sebelumnya memiliki skor perataan yang lebih rendah, yang berarti lebih rentan untuk menyertakan informasi yang tidak didukung oleh teks asli.
Kekayaan
Kami menghitung kekayaan model dengan menghitung rata-rata jumlah pernyataan yang dihasilkan oleh model untuk setiap ringkasan.
Gemma 2 2B memiliki skor kekayaan tertinggi sebesar 9,1, yang menunjukkan bahwa ringkasannya menyertakan lebih banyak detail dan poin penting. Model Gemini 1.5 Flash juga memiliki skor kekayaan yang tinggi, melebihi 8,4. Gemma 2B memiliki skor kekayaan yang lebih rendah, yang menunjukkan bahwa Gemma mungkin tidak menangkap banyak informasi penting dari teks aslinya.
Kesimpulan
Kami memutuskan bahwa model yang lebih kecil yang mampu menjalankan sisi klien, seperti Gemma 2 2B, dapat menghasilkan output berkualitas tinggi. Meskipun model berbasis cloud, seperti Gemini 1.5 Flash, sangat andal dalam menghasilkan ringkasan yang selaras dengan artikel asli, yang memuat sejumlah besar informasi, perbedaannya harus dipertimbangkan bersama dengan performa aplikasi, kebutuhan privasi dan keamanan, serta pertanyaan lain yang mungkin Anda ajukan saat menentukan apakah Anda harus membuat AI sisi klien.
Ada evolusi yang jelas dalam kemampuan rangkaian model Gemma, karena Gemma 2 2B mampu menghasilkan ringkasan yang lebih kaya dan lebih selaras daripada Gemma 2B.
Mengevaluasi kasus penggunaan Anda
Dokumen ini hanya membahas hal-hal umum yang dapat dilakukan dengan LLM sebagai teknik penilaian. Meskipun dengan ringkasan, Anda dapat melihat lebih banyak metrik dan hasilnya mungkin berbeda. Misalnya, Anda dapat mengevaluasi cakupan dengan menggunakan perintah untuk mengidentifikasi poin-poin penting dari artikel, lalu menggunakan perintah lain untuk memvalidasi apakah poin-poin penting tersebut tercakup dalam setiap ringkasan.
Kasus penggunaan lainnya, seperti menulis teks, menulis ulang teks, atau retrieval augmented generation (RAG) mungkin memiliki hasil yang berbeda untuk metrik yang sama atau harus menggunakan metrik lain untuk evaluasi.
Saat menerapkan pendekatan ini, pikirkan bagaimana manusia akan mengevaluasi output untuk menentukan metrik mana yang terbaik untuk kasus penggunaan Anda. Sebaiknya Anda juga mempelajari framework yang ada, seperti DeepEval, yang mungkin sudah memiliki serangkaian metrik yang sesuai untuk kasus penggunaan Anda.
Pernahkah Anda menerapkan LLM sebagai hakim untuk mengevaluasi model? Tweetkan temuan Anda kepada kami di @ChromiumDev atau bagikan ke Chrome untuk Developer di LinkedIn.