Опубликовано: 30 октября 2024 г.
Создание функций с помощью больших языковых моделей (LLM) сильно отличается от традиционной разработки программного обеспечения. Разработчикам необходимо научиться быстрому проектированию для обработки недетерминированных результатов, входных данных предварительной обработки и результатов последующей обработки.
Одна из проблем, о которой вы с нами поделились, заключается в том, что тестирование результатов LLM, определение их достоверности и качества требует много времени. Разработчики часто прибегают к пакетному формированию выходных данных с использованием различных входных данных, а затем вручную проверяют их, используя человеческое мнение.
Более масштабируемый подход к оценке результатов различных моделей и подсказок — это LLM как метод оценки . При использовании этого метода проверка модели делегируется другому LLM, вместо того чтобы полагаться на человеческое суждение. Второй LLM должен быть более крупным облачным LLM, который, вероятно, будет иметь лучшие возможности для рассуждения.
В этом документе мы используем обобщение, чтобы продемонстрировать, как можно подходить к сравнению различных моделей, и, в качестве бонуса, показать улучшение качества от Gemma до Gemma 2.
Выбирайте модели для сравнения и подготавливайте данные
Мы оценили возможности трех моделей по обобщению. Мы сравнили результаты двух открытых моделей Google, которые могут работать на стороне клиента, Gemma и Gemma 2 , с размером 2 миллиарда параметров. В отличие от этого, мы также оценили более крупную и мощную облачную модель: Gemini 1.5 Flash .
Мы использовали набор данных из 2225 статей BBC , охватывающих такие области, как бизнес, развлечения, политика, спорт и технологии, и создали краткое изложение каждой статьи, используя каждую из выбранных моделей. Одна и та же подсказка использовалась во всех моделях:
Кратко изложите статью в один абзац.
Мы сохранили исходные статьи и создали резюме в базе данных, чтобы к ним можно было легко получить доступ на каждом этапе.
Выберите судью для анализа и оценки резюме
Для анализа качества резюме мы использовали Gemini 1.5 Flash для оценки резюме, созданных Gemma 2B и Gemma 2 2B. Наш конкретный подход основан на выравнивании, которое является частью метрики суммирования DeepEval .
Согласование — это показатель, измеряющий частоту, с которой утверждения, включенные в сводку, поддерживаются в исходном контенте, на котором основано сводка.
Мы разбили процесс оценки на два этапа. Во-первых, мы предложили модели разбить каждое резюме на отдельные утверждения. Затем мы предложили модели определить, подтверждается ли каждое утверждение исходным текстом статьи.
Извлечь заявление из сводки
Мы попросили Gemini 1.5 Flash разбить длинный текст на отдельные утверждения . Например:
Защитник «Эвертона» Дэвид Вейр преуменьшил разговоры о европейском футболе, несмотря на то, что его команда находится на втором месте в Премьер-лиге после победы над «Ливерпулем».
Gemini 1.5 Flash разделил это предложение на следующие утверждения:
- «Дэвид Вейр играет защитника «Эвертона».
- «Эвертон» сейчас занимает второе место в Премьер-лиге».
- «Эвертон» обыграл «Ливерпуль» в недавнем матче».
- «Дэвид Вейр свел к минимуму обсуждение игры «Эвертона» в европейском футболе».
Проверка утверждений
Затем мы попросили Gemini 1.5 Flash проанализировать исходное предложение по сравнению с разделенными утверждениями. Модель классифицировала достоверность каждого утверждения как:
- Да : утверждение подтверждается оригинальным текстом.
- Нет . Заявление противоречит оригинальному тексту.
- Я не знаю . Невозможно проверить, поддерживается ли это утверждение или оно противоречит исходному тексту.
Анализ результатов
В результате этого процесса были получены две метрики, которые можно использовать для сравнения моделей:
- Выравнивание : как часто модель создавала сводки, содержащие утверждения, подтверждающие исходный текст.
- Богатство : среднее количество утверждений, содержащихся в сводке, созданной моделью.
Выравнивание
Мы вычислили соответствие, подсчитав количество резюме, в которых хотя бы одно утверждение отмечено как «Нет», и разделив его на общее количество резюме.
Модель Gemini 1.5 Flash имеет самые высокие показатели выравнивания, превышающие 92%. Это означает, что он очень хорошо придерживается фактов и избегает выдумок .
Gemma 2 2B имеет приличный балл 78,64%, что указывает на хороший уровень точности. Между тем, предыдущая версия Gemma 2B имеет более низкий показатель выравнивания, что означает, что она более склонна включать информацию, не подтвержденную исходным текстом.
Богатство
Мы рассчитали богатство модели, усреднив количество утверждений, сгенерированных моделью для каждого резюме.
Gemma 2 2B имеет самый высокий показатель насыщенности — 9,1, что указывает на то, что ее резюме содержат больше деталей и ключевых моментов. Модель Gemini 1.5 Flash также имеет высокие показатели насыщенности, превышающие 8,4. У Gemma 2B были более низкие оценки насыщенности, что указывает на то, что она может не содержать столько важной информации из исходного текста.
Заключение
Мы определили, что модели меньшего размера, способные работать на стороне клиента, такие как Gemma 2 2B, могут генерировать выходные данные высокого качества. Хотя облачные модели, такие как Gemini 1.5 Flash, превосходно создают сводки, соответствующие исходной статье, упаковывая значительный объем информации, разницу следует учитывать вместе с производительностью приложений, потребностями конфиденциальности и безопасности, а также другими вопросами, которые могут у вас возникнуть. спросите, когда решаете, следует ли вам создавать ИИ на стороне клиента .
Возможности семейства моделей Gemma явно развиваются, поскольку Gemma 2 2B способна генерировать более полные и согласованные сводки, чем Gemma 2B.
Оцените варианты использования
Этот документ лишь поверхностно затронул возможности LLM в качестве судейской техники. Даже при суммировании вы можете просмотреть больше показателей , и результаты могут отличаться. Например, вы можете оценить охват, используя подсказку для определения ключевых моментов статьи, а затем использовать другую подсказку, чтобы проверить, охватываются ли эти ключевые моменты в каждом резюме.
Другие варианты использования, такие как написание текста, переписывание текста или расширенная генерация извлечения (RAG), могут иметь разные результаты для одних и тех же показателей или должны использовать другие показатели для оценки.
При реализации этого подхода подумайте о том, как человек будет оценивать выходные данные, чтобы определить, какие показатели лучше всего подходят для ваших вариантов использования. Также стоит изучить существующие платформы, такие как DeepEval, которые, возможно, уже имеют набор метрик, подходящих для вашего варианта использования.
Применяли ли вы LLM в качестве судьи для оценки моделей? Напишите нам о своих выводах в Твиттере @ChromiumDev или поделитесь ими с Chrome для разработчиков на LinkedIn .