השוואה בין יכולות של מודלים גדולים של שפה לבין סיכום

תאריך פרסום: 30 באוקטובר 2024

פיתוח תכונות באמצעות מודלים גדולים של שפה (LLM) שונה מאוד מהנדסת תוכנה רגילה. מפתחים צריכים ללמוד את הנדסת ההנחיות כדי לטפל בתוצאות לא ודאיות, בקלט של עיבוד מקדים ובתוצאות של עיבוד לאחרי.

אחד האתגרים ששיתפתם איתנו הוא שבדיקת הפלט ממודלים מסוג LLM, קביעת התוקף והאיכות, גוזלת זמן רב. מפתחים נוטים לעתים קרובות ליצור את הפלט ברצף באמצעות מקורות קלט שונים, ולאחר מכן לאמת אותם באופן ידני באמצעות שיקול דעת אנושי.

השיטה LLM כשופט היא גישה שניתנת להתאמה כדי להעריך את התוצאות של הנחיות ומודלים שונים. בשיטה הזו, במקום להסתמך על שיקול דעת אנושי, אימות המודל מופקד בידי LLM אחר. ה-LLM השני חייב להיות LLM גדול יותר שמבוסס על ענן, ויש לו סיכוי גבוה יותר ליכולות חשיבה טובות יותר.

במסמך הזה נשתמש בסיכום כדי להדגים איך אפשר להשוות בין מודלים שונים, וכבונוס, תוכלו להראות את השיפור באיכות גבוהה מ-Gemma ל-Gemma 2.

בחירת מודלים להשוואה והכנת נתונים

בדקנו את היכולות של שלושה מודלים ביצירת סיכומים. השווינו בין התוצאות של שני מודלים פתוחים של Google שאפשר להריץ בצד הלקוח, Gemma ו-Gemma 2, שניהם בגודל של 2 מיליארד פרמטרים. לעומת זאת, ניסינו גם מודל מבוסס-ענן גדול ומשופר: Gemini 1.5 Flash.

השתמשנו במערך נתונים של 2,225 מאמרים של BBC, שמכסים תחומים כמו עסקים, בידור, פוליטיקה, ספורט וטכנולוגיה, ויצרנו סיכום של כל מאמר באמצעות כל אחד מהמודלים שנבחרו. השתמשנו באותה הנחיה בכל הדגמים:

כותבים סיכום של המאמר בפסקה אחת.

אחסנו את המאמרים המקוריים ואת הסיכומים במסד נתונים כדי שיהיה קל לגשת אליהם בכל שלב.

בחירת שופט/ת לניתוח ולמתן ציונים לסיכומים

כדי לנתח את איכות הסיכומים, השתמשנו ב-Gemini 1.5 Flash כדי לשפוט את הסיכומים שנוצרו על ידי Gemma 2 ו-Gemma 2 2B. הגישה הספציפית שלנו מבוססת על התאמה, שהיא חלק ממדד הסיכום של DeepEval.

התאמה הוא מדד שמודד את התדירות שבה ההצהרות הכלולות בסיכום נתמכות בתוכן המקורי שעליו מבוסס הסיכום.

פיצלנו את תהליך ההערכה לשני שלבים. קודם כל, הנחינו את המודל לפצל כל סיכום למשפטים נפרדים. לאחר מכן ביקשנו מהמודל לקבוע אם כל הצהרה נתמכת בטקסט המקורי של המאמר.

חילוץ הצהרה מסיכומים

ביקשנו מ-Gemini 1.5 Flash לפצל טקסט ארוך יותר למשפטים נפרדים. לדוגמה:

שחקן ההגנה של אברטון, דייוויד וייר, ביטל את האפשרות של הקבוצה להשתתף בכדורגל האירופי, למרות שהיא נמצאת במקום השני בפרמייר ליג אחרי שהביסה את ליברפול.

מערכת Gemini 1.5 Flash מפצלת את המשפט הזה לטענות הבאות:

  • "David Weir plays defender for Everton"
  • "קבוצת אברטון נמצאת כרגע במקום השני בפרמיירליג".
  • "Everton beat Liverpool in a recent match"
  • "דייוויד וויר מצמצם את הדיון על המשחק של אוורטון בפוטבול האירופי."

אימות הצהרות

לאחר מכן ביקשנו מ-Gemini 1.5 Flash לנתח את המשפט המקורי, בהשוואה למשפטים המפוצלים. המודל סיווג את התוקף של כל טענה באופן הבא:

  • כן: ההצהרה נתמכת בטקסט המקורי.
  • לא. ההצהרה סותרת את הטקסט המקורי.
  • Idk. אי אפשר לוודא אם ההצהרה נתמכת או אם היא סותרת את הטקסט המקורי.

ניתוח התוצאות

התהליך הזה הניב שני מדדים שאפשר להשתמש בהם כדי להשוות בין המודלים:

  • התאמה: באיזו תדירות המודל יצר סיכומים שמכילים טענות שנתמכות בטקסט המקורי.
  • עושר: המספר הממוצע של הצהרות שנכללות בסיכום שהמודל יצר.
תרשים להשוואה בין עושר המודל לבין ההתאמה שלו.
איור 1. השוואה בין Gemma 2B,‏ Gemma 2 2B ו-Gemini 1.5 Flash, שכולן מניבות ציונים טובים.

יישור

כדי לחשב את מידת ההתאמה, ספרנו את מספר הסיכומים שבהם יש לפחות הצהרה אחת שמסומנת בתור 'לא', ומחלקנו אותו במספר הכולל של הסיכומים.

למודל ה-Flash של Gemini 1.5 יש את הציונים הגבוהים ביותר לגבי התאמה – יותר מ-92%. המשמעות היא שהיא מצליחה מאוד להיצמד לעובדות ומונעת המצאת דברים.

ל-Gemma 2 2B יש ציון גבוה של 78.64%, שמצביע על רמת דיוק טובה. בינתיים, לגרסה הקודמת של Gemma 2B יש ציון התאמה נמוך יותר, ולכן יש סיכוי גבוה יותר לכלול מידע שלא נתמך בטקסט המקורי.

עושר

כדי לחשב את עושר המודל, חישבנו את הממוצע של מספר ההצהרות שהמודל יצר לכל סיכום.

ל-Gemma 2 2B יש את ציון העשירות הגבוה ביותר, 9.1, שמציין שהסיכומים שלה כוללים יותר פרטים ונקודות מפתח. גם למודל Gemini 1.5 Flash יש ציונים גבוהים של עושר תוכן, מעל 8.4. ל-Gemma 2B היו ציונים נמוכים יותר של עושר, מה שמצביע על כך שהיא לא תצליח לתעד את כל המידע החשוב מהטקסט המקורי.

סיכום

הגענו למסקנה שמודלים קטנים יותר שאפשר להריץ בצד הלקוח, כמו Gemma 2 2B, יכולים ליצור פלט באיכות מעולה. מודלים מבוססי-ענן, כמו Gemini 1.5 Flash, אבל מצטיינים ביצירת סיכומים שתואמים לכתבה המקורית, שכוללים כמות גדולה של מידע, אבל צריך להביא בחשבון את ההבדל לצד ביצועי האפליקציה, צורכי הפרטיות והאבטחה ושאלות אחרות שכדאי לשאול כשמחליטים אם כדאי ליצור AI בצד הלקוח.

יש התפתחות ברורה ביכולות של משפחת המודלים של Gemma, כי Gemma 2 2B מסוגל ליצור סיכומים עשירים יותר ותואמים יותר מאשר Gemma 2B.

בדיקת תרחישים לדוגמה

המסמך הזה הוא רק קצה הקרחון של מה שאפשר לעשות עם LLM כטכניקה לשיפוט. אפילו עם הסיכום, אפשר לבחון עוד מדדים והתוצאות עשויות להיות שונות. לדוגמה, אפשר להשתמש בהנחיה כדי לזהות נקודות מפתח במאמר, ואז להשתמש בהנחיה אחרת כדי לאמת אם כל הנקודות האלה מופיעות בכל סיכום.

בתרחישי שימוש אחרים, כמו כתיבת טקסט, כתיבת טקסט מחדש או יצירה משופרת של אחזור (RAG), יכול להיות שתקבלו תוצאות שונות לאותו מדד, או שתצטרכו להשתמש במדדים אחרים לצורך הערכה.

כשמטמיעים את הגישה הזו, כדאי לחשוב איך אדם היה מעריך את הפלט כדי לקבוע אילו מדדים מתאימים ביותר לתרחישי לדוגמה שלכם. כדאי גם לבדוק מסגרות קיימות, כמו DeepEval, שכבר יש בהן קבוצה של מדדים שמתאימים לתרחיש לדוגמה שלכם.

האם הטמעתם LLM בתור שופט להערכת מודלים? אתם יכולים לשלוח לנו את הממצאים שלכם בטוויטר ‎@ChromiumDev או לשתף אותם בקבוצה Chrome למפתחים ב-LinkedIn.