قابلیت LLM را با خلاصه سازی مقایسه کنید

تاریخ انتشار: 30 اکتبر 2024

ویژگی های ساختمان با مدل های زبان بزرگ (LLM) با مهندسی نرم افزار معمولی کاملاً متفاوت است. توسعه دهندگان باید مهندسی سریع را یاد بگیرند تا نتایج غیر قطعی، ورودی های پیش پردازش و نتایج پس از پردازش را مدیریت کنند.

یکی از چالش‌هایی که با ما در میان گذاشته‌اید این است که آزمایش خروجی LLM، تعیین اعتبار و کیفیت، زمان‌بر است. توسعه دهندگان اغلب به تولید دسته ای خروجی با استفاده از ورودی های مختلف متوسل می شوند و سپس به صورت دستی آنها را با استفاده از قضاوت انسان تأیید می کنند.

یک رویکرد مقیاس‌پذیرتر برای ارزیابی نتایج مدل‌ها و درخواست‌های مختلف ، LLM به عنوان یک تکنیک داور است. با این تکنیک، به جای تکیه بر قضاوت انسان، اعتبار مدل به LLM دیگری واگذار می شود. LLM دوم باید یک LLM بزرگتر و مبتنی بر ابر باشد که احتمالاً قابلیت استدلال بهتری دارد.

در این سند، ما از خلاصه سازی استفاده می کنیم تا نشان دهیم که چگونه می توانید به مقایسه مدل های مختلف نزدیک شوید و به عنوان یک امتیاز، بهبود کیفیت از Gemma به Gemma 2 را نشان دهید.

مدل هایی را برای مقایسه و آماده سازی داده ها انتخاب کنید

ما قابلیت های سه مدل را به صورت خلاصه ارزیابی کردیم. ما نتایج دو مدل باز Google را که می‌توانند در سمت سرویس گیرنده اجرا شوند، Gemma و Gemma 2 ، هر دو در اندازه 2 میلیارد پارامتر مقایسه کردیم. در مقابل، ما همچنین مدل بزرگتر و توانمندتری مبتنی بر ابر را ارزیابی کردیم: Gemini 1.5 Flash .

ما از مجموعه داده‌ای از 2225 مقاله بی‌بی‌سی استفاده کردیم که حوزه‌هایی مانند تجارت، سرگرمی، سیاست، ورزش و فناوری را پوشش می‌دهد و خلاصه‌ای از هر مقاله را با استفاده از هر یک از مدل‌های انتخاب شده ایجاد کردیم. در همه مدل‌ها از همان دستور استفاده شد:

مقاله را در یک پاراگراف خلاصه کنید.

ما مقالات اصلی را ذخیره کرده و خلاصه‌هایی را در یک پایگاه داده ایجاد کردیم تا بتوان به راحتی در هر مرحله به آنها دسترسی داشت.

داوری را برای تجزیه و تحلیل و امتیازدهی خلاصه انتخاب کنید

برای تجزیه و تحلیل کیفیت خلاصه، از Gemini 1.5 Flash برای قضاوت در مورد خلاصه های ایجاد شده توسط Gemma 2B و Gemma 2 2B استفاده کردیم. رویکرد خاص ما بر اساس تراز است، که بخشی از متریک خلاصه سازی DeepEval است.

تراز معیاری است که تعداد دفعات پشتیبانی عبارات موجود در خلاصه را در محتوای اصلی که خلاصه بر اساس آن است، می سنجد.

ما فرآیند ارزیابی را به دو مرحله تقسیم کردیم. ابتدا، ما از مدل خواستیم تا هر خلاصه را به عبارات جداگانه تقسیم کند. سپس، از مدل خواستیم تعیین کند که آیا هر عبارت توسط متن اصلی مقاله پشتیبانی می‌شود یا خیر.

استخراج بیانیه از خلاصه ها

ما از Gemini 1.5 Flash درخواست کردیم که متن طولانی تر را به عبارات جداگانه تقسیم کند . به عنوان مثال:

دیوید ویر، مدافع اورتون، علیرغم اینکه تیمش پس از شکست لیورپول در رده دوم جدول لیگ برتر قرار گرفت، صحبت ها در مورد فوتبال اروپا را نادیده گرفت.

Gemini 1.5 Flash این جمله را به عبارات زیر تقسیم می کند:

  • دیوید ویر برای اورتون مدافع بازی می کند.
  • اورتون در حال حاضر در رتبه دوم لیگ برتر قرار دارد.
  • اورتون در بازی اخیر لیورپول را شکست داد.
  • دیوید ویر بحث در مورد بازی اورتون در فوتبال اروپا را به حداقل رسانده است.

تایید گزاره ها

سپس از Gemini 1.5 Flash خواستیم تا جمله اصلی را در مقایسه با عبارات تقسیم شده تجزیه و تحلیل کند . مدل اعتبار هر عبارت را به صورت زیر طبقه بندی کرد:

  • بله : بیانیه توسط متن اصلی پشتیبانی می شود.
  • نه بیانیه با متن اصلی در تضاد است.
  • Idk تأیید اینکه آیا این بیانیه پشتیبانی می شود یا با متن اصلی مغایرت دارد، امکان پذیر نیست.

تجزیه و تحلیل نتایج

این فرآیند منجر به دو معیار شد که می‌توان از آنها برای مقایسه مدل‌ها استفاده کرد:

  • تراز کردن : مدل چند بار خلاصه‌هایی را تولید می‌کند که حاوی عباراتی است که توسط متن اصلی پشتیبانی می‌شود.
  • غنا : میانگین تعداد عبارات موجود در خلاصه تولید شده توسط مدل.
نمودار مقایسه غنا و تراز مدل.
شکل 1. مقایسه Gemma 2B، Gemma 2 2B، و Gemini 1.5 Flash که همگی امتیاز خوبی دارند.

تراز

ما تراز را با شمارش تعداد خلاصه‌هایی که حداقل یک عبارت با علامت «خیر» دارند و تقسیم آن بر تعداد کل خلاصه‌ها محاسبه کردیم.

مدل فلش جمینی 1.5 بالاترین امتیاز تراز را دارد که بیش از 92 درصد است. این بدان معناست که در پایبندی به حقایق بسیار خوب است و از ساختن چیزها اجتناب می کند.

Gemma 2 2B دارای امتیاز قابل قبول 78.64 درصد است که نشان دهنده سطح خوبی از دقت است. در همین حال، نسخه قبلی Gemma 2B دارای امتیاز تراز کمتری است، به این معنی که بیشتر مستعد گنجاندن اطلاعاتی است که توسط متن اصلی پشتیبانی نمی شود.

غنا

ما غنای مدل را با میانگین تعداد عبارات تولید شده توسط مدل برای هر خلاصه محاسبه کردیم.

Gemma 2 2B دارای بالاترین امتیاز غنای 9.1 است که نشان می دهد خلاصه های آن شامل جزئیات بیشتر و نکات کلیدی است. مدل جمینی 1.5 فلش نیز دارای امتیازهای غنای بالایی است که بیش از 8.4 است. Gemma 2B نمرات غنای پایین تری داشت، که نشان می دهد ممکن است اطلاعات مهمی را از متن اصلی دریافت نکند.

نتیجه گیری

ما تشخیص دادیم که مدل‌های کوچک‌تر که قادر به اجرای سمت مشتری هستند، مانند Gemma 2 2B، می‌توانند خروجی با کیفیت عالی تولید کنند. در حالی که مدل‌های مبتنی بر ابر، مانند Gemini 1.5 Flash، در تولید خلاصه‌هایی که با مقاله اصلی همراستا هستند و حجم قابل‌توجهی از اطلاعات را جمع‌آوری می‌کنند، برتری دارند، این تفاوت باید در کنار عملکرد برنامه، نیازهای حریم خصوصی و امنیتی، و سایر سؤالات ممکن سنجیده شود. هنگام تعیین اینکه آیا باید هوش مصنوعی سمت کلاینت بسازید بپرسید.

تکامل واضحی در قابلیت‌های خانواده مدل Gemma وجود دارد، زیرا Gemma 2 2B قادر است خلاصه‌های غنی‌تر و همسوتر از Gemma 2B ایجاد کند.

موارد استفاده خود را ارزیابی کنید

این سند فقط سطح آنچه را که با LLM به عنوان یک تکنیک داور امکان پذیر است، خراش داد. حتی با خلاصه کردن، می توانید به معیارهای بیشتری نگاه کنید و نتایج ممکن است متفاوت باشد. برای مثال، می‌توانید با استفاده از یک اعلان برای شناسایی نکات کلیدی از یک مقاله، پوشش را ارزیابی کنید، سپس از یک اعلان دیگر برای تأیید اینکه آیا آن نکات کلیدی توسط هر خلاصه پوشش داده شده است، استفاده کنید.

موارد استفاده دیگر، مانند نوشتن متن، بازنویسی متن، یا بازیابی تولید افزوده شده (RAG) ممکن است نتایج متفاوتی برای معیارهای مشابه داشته باشند یا باید از معیارهای دیگر برای ارزیابی استفاده شود.

هنگام اجرای این رویکرد، به این فکر کنید که چگونه یک انسان خروجی را ارزیابی می کند تا مشخص کند کدام معیارها برای موارد استفاده شما بهترین هستند. همچنین ارزش بررسی چارچوب‌های موجود، مانند DeepEval را دارد که ممکن است مجموعه‌ای از معیارهای مناسب برای مورد استفاده شما را داشته باشند.

آیا LLM را به عنوان داور برای ارزیابی مدل ها اجرا کرده اید؟ یافته‌های خود را در @ChromiumDev برای ما توییت کنید یا با Chrome for Developers در LinkedIn به اشتراک بگذارید.