Compara la capacidad de LLM con el resumen

Fecha de publicación: 30 de octubre de 2024

La compilación de funciones con modelos de lenguaje grandes (LLM) es bastante diferente de la ingeniería de software convencional. Los desarrolladores deben aprender a ingeniería de instrucciones para controlar resultados no deterministas, entradas de procesamiento previo y resultados posteriores al procesamiento.

Uno de los desafíos que compartiste con nosotros es que probar el resultado de los LLM y determinar su validez y calidad lleva tiempo. Los desarrolladores suelen recurrir a la generación por lotes del resultado con diferentes entradas y, luego, validarlas manualmente con el juicio humano.

Un enfoque más escalable para evaluar los resultados de diferentes modelos y estímulos es la técnica de LLM como juez. Con esta técnica, en lugar de depender del juicio humano, la validación del modelo se delega a otro LLM. El segundo LLM debe ser uno más grande basado en la nube, que es probable que tenga mejores capacidades de razonamiento.

En este documento, usamos el resumen para demostrar cómo puedes abordar la comparación de diferentes modelos y, como beneficio adicional, mostrar la mejora en la calidad de Gemma a Gemma 2.

Elige modelos para datos de comparación y preparación

Evaluamos las capacidades de tres modelos en la generación de resúmenes. Comparamos los resultados de dos de los modelos abiertos de Google que se pueden ejecutar del cliente, Gemma y Gemma 2, ambos con un tamaño de 2,000 millones de parámetros. En contraste, también evaluamos un modelo más grande y capaz basado en la nube: Gemini 1.5 Flash.

Usamos un conjunto de datos de 2,225 artículos de la BBC, que abarcan áreas como negocios, entretenimiento, política, deportes y tecnología, y generamos un resumen de cada artículo con cada uno de los modelos seleccionados. Se usó la misma instrucción en todos los modelos:

Resume el artículo en un párrafo.

Almacenamos los artículos originales y generamos resúmenes en una base de datos para que se pudiera acceder a ellos fácilmente en cada paso.

Selecciona un juez para que analice y califique los resúmenes

Para analizar la calidad del resumen, usamos Gemini 1.5 Flash para juzgar los resúmenes creados por Gemma 2B y Gemma 2 2B. Nuestro enfoque específico se basa en la alineación, que forma parte de la métrica de resumen de DeepEval.

La alineación es una métrica que mide la frecuencia con la que las afirmaciones incluidas en un resumen se respaldan en el contenido original en el que se basa el resumen.

Dividimos el proceso de evaluación en dos pasos. Primero, le pedimos al modelo que divida cada resumen en oraciones separadas. Luego, le pedimos al modelo que determine si cada declaración está respaldada por el texto del artículo original.

Extrae declaraciones de resúmenes

Le pedimos a Gemini 1.5 Flash que divida el texto más largo en oraciones separadas. Por ejemplo:

El defensor del Everton, David Weir, minimizó las conversaciones sobre el fútbol europeo, a pesar de que su equipo ocupa el segundo lugar en la Premiership después de vencer al Liverpool.

Gemini 1.5 Flash dividió esta oración en las siguientes sentencias:

  • "David Weir juega como defensor en el Everton".
  • “Actualmente, Everton ocupa el segundo lugar en la Premier League”.
  • "Everton derrotó a Liverpool en un partido reciente".
  • "David Weir minimizó el debate sobre el Everton jugando en el fútbol europeo".

Valida las declaraciones

Luego, le pedimos a Gemini 1.5 Flash que analice la oración original, en comparación con las sentencias de división. El modelo clasificó la validez de cada declaración de la siguiente manera:

  • : La afirmación está respaldada por el texto original.
  • No. La afirmación contradice el texto original.
  • Idk. No es posible verificar si la sentencia es compatible o si contradice el texto original.

Análisis de los resultados

Este proceso generó dos métricas que se pueden usar para comparar los modelos:

  • Alineación: Indica la frecuencia con la que el modelo produjo resúmenes que contienen afirmaciones que se respaldan con el texto original.
  • Riqueza: Es la cantidad promedio de sentencias contenidas en un resumen generado por el modelo.
Gráfico que compara la riqueza y la alineación de los modelos.
Figura 1: Comparación de Gemma 2B, Gemma 2 2B y Gemini 1.5 Flash, que tienen buenas puntuaciones.

Alineación

Para calcular la alineación, se cuenta la cantidad de resúmenes que tienen al menos una afirmación marcada como “No” y se dividió por la cantidad total de resúmenes.

El modelo Gemini 1.5 Flash tiene las puntuaciones de alineación más altas, que superan el 92%. Esto significa que es muy bueno apegarse a los hechos y evitar inventar cosas.

Gemma 2 2B tiene una puntuación respetable del 78.64%, lo que indica un buen nivel de precisión. Mientras tanto, la versión anterior de Gemma 2B tiene una puntuación de alineación más baja, lo que significa que es más propensa a incluir información que no es compatible con el texto original.

Riqueza

Para calcular la riqueza del modelo, calculamos el promedio de la cantidad de sentencias que genera el modelo para cada resumen.

Gemma 2 2B tiene la puntuación de riqueza más alta con 9.1, lo que indica que sus resúmenes incluyen más detalles y puntos clave. El modelo Gemini 1.5 Flash también tiene puntuaciones de riqueza altas, superiores a 8.4. Gemma 2B tuvo puntuaciones de riqueza más bajas, lo que indica que es posible que no capture tanta información importante del texto original.

Conclusión

Determinamos que los modelos más pequeños capaces de ejecutarse del cliente, como Gemma 2 2B, pueden generar resultados de gran calidad. Si bien los modelos basados en la nube, como Gemini 1.5 Flash, se destacan por producir resúmenes alineados con el artículo original y contienen una cantidad considerable de información, la diferencia debe sopesarse junto con el rendimiento de la aplicación, las necesidades de privacidad y seguridad, y otras preguntas que podrías hacer cuando determines si debes compilar IA del cliente.

Hay una clara evolución en las capacidades de la familia de modelos de Gemma, ya que Gemma 2 2B es capaz de generar resúmenes más enriquecidos y alineados que Gemma 2B.

Evalúa tus casos de uso

En este documento, solo se analizó una pequeña parte de lo que es posible hacer con el LLM como técnica de evaluación. Incluso con el resumen, puedes ver más métricas y los resultados pueden diferir. Por ejemplo, podrías evaluar la cobertura con una instrucción para identificar los puntos clave de un artículo y, luego, usar una instrucción diferente para validar si cada resumen abarca esos puntos clave.

Otros casos de uso, como escribir texto, reescribir texto o la generación aumentada de recuperación (RAG), pueden tener resultados diferentes para las mismas métricas o deben usar otras métricas para la evaluación.

Cuando implementes este enfoque, piensa en cómo una persona evaluaría el resultado para determinar qué métricas son mejores para tus casos de uso. También vale la pena buscar en los frameworks existentes, como DeepEval, que ya tienen un conjunto de métricas adecuadas para tu caso de uso.

¿Implementaste LLM como juez para evaluar modelos? Cuéntanos tus hallazgos en @ChromiumDev o compártelos con Chrome para desarrolladores en LinkedIn.