תאריך פרסום: 30 באוקטובר 2024
פיתוח תכונות באמצעות מודלים גדולים של שפה (LLM) שונה מאוד מהנדסת תוכנה רגילה. מפתחים צריכים ללמוד את תכנון ההנחיות כדי לטפל בתוצאות לא ודאיות, בקלט של עיבוד מקדים ובתוצאות של עיבוד לאחרי.
אחד האתגרים ששיתפתם איתנו הוא שבדיקה של הפלט ממודלים של LLM, וקביעת התוקף והאיכות שלו, דורשת זמן רב. מפתחים נוטים לעתים קרובות ליצור את הפלט ברצף באמצעות מקורות קלט שונים, ולאחר מכן לאמת אותו באופן ידני באמצעות שיקול דעת אנושי.
גישה גמישה יותר להערכת התוצאות של מודלים והנחיות שונים היא השיטה LLM בתור שופט. בשיטה הזו, במקום להסתמך על שיקול דעת אנושי, אימות המודל מופקד בידי LLM אחר. ה-LLM השני חייב להיות LLM גדול יותר שמבוסס על ענן, ויש לו סיכוי גבוה יותר ליכולות חשיבה טובות יותר.
במסמך הזה אנחנו משתמשים בסיכום כדי להמחיש איך אפשר להשוות בין מודלים שונים, וכבונוס, אנחנו מראים את השיפור באיכות מ-Gemma ל-Gemma 2.
בחירת מודלים להשוואה והכנת נתונים
בדקנו את היכולות של שלושה מודלים ביצירת סיכומים. השווינו בין התוצאות של שני מודלים פתוחים של Google שאפשר להריץ בצד הלקוח, Gemma ו-Gemma 2, שניהם בגודל של 2 מיליארד פרמטרים. לעומת זאת, בדקנו גם מודל גדול יותר שמבוסס על ענן ויש לו יכולות מתקדמות יותר: Gemini 1.5 Flash.
השתמשנו במערך נתונים של 2,225 מאמרים של BBC, שמכסים תחומים כמו עסקים, בידור, פוליטיקה, ספורט וטכנולוגיה, ויצרנו סיכום של כל מאמר באמצעות כל אחד מהמודלים שנבחרו. השתמשנו באותה הנחיה בכל הדגמים:
לסכם את המאמר בפסקה אחת.
שמרתם את המאמרים המקוריים וליצורם סיכומים במסד נתונים, כדי שאפשר יהיה לגשת אליהם בקלות בכל שלב.
בחירת שופט/ת לניתוח הסיכומים ולמתן ציונים
כדי לנתח את איכות הסיכומים, השתמשנו ב-Gemini 1.5 Flash כדי לשפוט את הסיכומים שנוצרו על ידי Gemma 2B ו-Gemma 2 2B. הגישה הספציפית שלנו מבוססת על התאמה, שהיא חלק ממדד הסיכום של DeepEval.
התאמה הוא מדד שמודד את התדירות שבה ההצהרות הכלולות בסיכום נתמכות בתוכן המקורי שעליו מבוסס הסיכום.
פיצלנו את תהליך ההערכה לשני שלבים. קודם כל, הנחינו את המודל לפצל כל סיכום למשפטים נפרדים. לאחר מכן, ביקשנו מהמודל לקבוע אם כל טענה נתמכת בטקסט המקורי של המאמר.
חילוץ הצהרה מסיכומים
ביקשנו מ-Gemini 1.5 Flash לפצל טקסט ארוך יותר להצהרות נפרדות. לדוגמה:
שחקן ההגנה של אברטון, דייוויד וייר, ביטל את האפשרות של הקבוצה להשתתף בכדורגל האירופי, למרות שהיא נמצאת במקום השני בפרמייר ליג אחרי שהביסה את ליברפול.
מערכת Gemini 1.5 Flash מפצלת את המשפט הזה לטענות הבאות:
- "David Weir plays defender for Everton"
- "קבוצת אברטון נמצאת כרגע במקום השני בפרמיירליג".
- "Everton beat Liverpool in a recent match"
- "דייוויד וייר צמצם את הדיון על השתתפות אברטון בכדורגל האירופי".
אימות הצהרות
לאחר מכן ביקשנו מ-Gemini 1.5 Flash לנתח את המשפט המקורי, בהשוואה למשפטים המפוצלים. המודל סיווג את התוקף של כל טענה בתור:
- כן: ההצהרה נתמכת בטקסט המקורי.
- לא. ההצהרה סותרת את הטקסט המקורי.
- Idk. אי אפשר לאמת אם ההצהרה נתמכת או אם היא מנוגדת לטקסט המקורי.
ניתוח התוצאות
התהליך הזה הניב שני מדדים שאפשר להשתמש בהם כדי להשוות בין המודלים:
- התאמה: באיזו תדירות המודל יצר סיכומים שמכילים טענות שנתמכות בטקסט המקורי.
- עשירות: המספר הממוצע של הצהרות שמופיעות בסיכום שנוצר על ידי המודל.
יישור
כדי לחשב את מידת ההתאמה, ספרנו את מספר הסיכומים שיש בהם לפחות הצהרה אחת שמסומנת בתור 'לא', ומחלקנו אותו במספר הכולל של הסיכומים.
מודל Gemini 1.5 Flash מניב את ציוני ההתאמה הגבוהים ביותר, מעל 92%. המשמעות היא שהיא מצליחה מאוד להיצמד לעובדות ומונעת המצאת דברים.
ל-Gemma 2 2B יש ציון גבוה של 78.64%, שמצביע על רמת דיוק טובה. לעומת זאת, לגרסה הקודמת של Gemma 2B יש ציון התאמה נמוך יותר, כלומר יש לה סיכוי גבוה יותר לכלול מידע שלא נתמך בטקסט המקורי.
עושר
כדי לחשב את עושר המודל, חישבנו את הממוצע של מספר ההצהרות שהמודל יצר לכל סיכום.
ל-Gemma 2 2B יש את ציון העשירות הגבוה ביותר, 9.1, שמציין שהסיכומים שלה כוללים יותר פרטים ונקודות מפתח. גם למודל Gemini 1.5 Flash יש ציונים גבוהים של עושר תוכן, מעל 8.4. ל-Gemma 2B היו ציונים נמוכים יותר של עושר, מה שמצביע על כך שהיא לא תצליח לתעד את כל המידע החשוב מהטקסט המקורי.
סיכום
הגענו למסקנה שמודלים קטנים יותר שאפשר להריץ בצד הלקוח, כמו Gemma 2 2B, יכולים ליצור פלט באיכות מעולה. מודלים מבוססי-ענן, כמו Gemini 1.5 Flash, מצטיינים ביצירת סיכומים שתואמים למאמר המקורי ומכילים כמות גדולה של מידע. עם זאת, צריך לשקול את ההבדל הזה לצד ביצועי האפליקציה, הצרכים שלכם בתחומי הפרטיות והאבטחה ושאלות אחרות שיכולות לעזור לכם להחליט אם כדאי ליצור AI בצד הלקוח.
יש התפתחות ברורה ביכולות של משפחת המודלים של Gemma, כי Gemma 2 2B מסוגל ליצור סיכומים עשירים יותר ותואמים יותר מאשר Gemma 2B.
הערכת תרחישים לדוגמה
המסמך הזה הוא רק קצה המזלג של מה שאפשר לעשות עם LLM כטכניקה לשיפוט. גם אחרי סיכום, אפשר להציג מדדים נוספים והתוצאות עשויות להיות שונות. לדוגמה, אפשר להשתמש בהנחיה כדי לזהות נקודות מפתח במאמר, ואז להשתמש בהנחיה אחרת כדי לאמת אם כל הנקודות האלה מופיעות בכל סיכום.
בתרחישי שימוש אחרים, כמו כתיבת טקסט, כתיבת טקסט מחדש או יצירת טקסט משופר לאחזור (RAG), יכול להיות שתקבלו תוצאות שונות לאותו מדד, או שתצטרכו להשתמש במדדים אחרים לצורך הערכה.
כשמטמיעים את הגישה הזו, כדאי לחשוב איך אדם היה מעריך את הפלט כדי לקבוע אילו מדדים הכי מתאימים לתרחישי לדוגמה שלכם. כדאי גם לבדוק מסגרות קיימות, כמו DeepEval, שכבר יש בהן קבוצה של מדדים שמתאימים לתרחיש לדוגמה שלכם.
האם הטמעתם LLM בתור שופט להערכת מודלים? אתם יכולים לשלוח לנו את הממצאים שלכם בטוויטר @ChromiumDev או לשתף אותם בקבוצה Chrome למפתחים ב-LinkedIn.