LLM 기능과 요약 비교

게시일: 2024년 10월 30일

대규모 언어 모델(LLM)로 기능을 빌드하는 것은 기존의 소프트웨어 엔지니어링과는 상당히 다릅니다. 개발자는 비확정 결과, 사전 처리 입력, 사후 처리 결과를 처리하기 위해 프롬프트 엔지니어링을 배워야 합니다.

Google에 공유해 주신 문제 중 하나는 LLM의 출력을 테스트하고 유효성과 품질을 확인하는 데 시간이 많이 걸린다는 것입니다. 개발자는 종종 다양한 입력을 사용하여 출력을 일괄 생성한 후 사람의 판단을 사용하여 수동으로 검증합니다.

다양한 모델 및 프롬프트의 결과를 평가하는 보다 확장 가능한 접근 방식은 판단으로서의 LLM 기법입니다. 이 기법을 사용하면 인간의 판단에 의존하는 대신 모델 검증을 다른 LLM에 위임합니다. 두 번째 LLM은 더 큰 클라우드 기반 LLM이어야 하며, 더 나은 추론 기능을 제공할 가능성이 높습니다.

이 문서에서는 요약을 사용하여 다양한 모델을 비교하는 방법을 설명하고, 보너스로 Gemma에서 Gemma 2로의 품질 개선을 보여줍니다.

비교 및 준비 데이터용 모델 선택

3가지 모델의 기능을 요약하여 평가했습니다. 클라이언트 측에서 실행할 수 있는 Google의 두 가지 오픈 모델인 GemmaGemma 2의 결과를 모두 20억 개의 매개변수 크기로 비교했습니다. 이에 반해 Google은 더 크고 성능이 뛰어난 클라우드 기반 모델인 Gemini 1.5 Flash도 평가했습니다.

비즈니스, 엔터테인먼트, 정치, 스포츠, 기술 등의 영역을 다루는 BBC 기사 2,225개로 구성된 데이터 세트를 사용하여 선택한 각 모델을 사용하여 각 기사의 요약을 생성했습니다. 모든 모델에서 동일한 프롬프트가 사용되었습니다.

기사를 한 단락으로 요약하세요.

Google은 원본 도움말을 저장하고 각 단계에서 쉽게 액세스할 수 있도록 요약을 데이터베이스에 생성했습니다.

요약을 분석하고 점수를 매길 심사자를 선택합니다.

요약 품질을 분석하기 위해 Gemini 1.5 Flash를 사용하여 Gemma 2 및 Gemma 2 2B로 생성된 요약을 판단했습니다. Google의 구체적인 접근 방식은 DeepEval의 요약 측정항목에 포함된 정렬을 기반으로 합니다.

정렬은 요약에 포함된 문이 요약의 기반이 되는 원본 콘텐츠에서 지원되는 빈도를 측정하는 측정항목입니다.

평가 절차는 두 단계로 나뉩니다. 먼저, 모델이 각 요약을 별도의 문으로 나누도록 요청했습니다. 그런 다음 각 문장이 원본 기사 텍스트에서 뒷받침되는지 확인하도록 모델에 프롬프트를 표시했습니다.

요약에서 문장 추출

Gemini 1.5 Flash에 긴 텍스트를 별도의 문이 되도록 분할하도록 요청했습니다. 예를 들면 다음과 같습니다.

에버튼의 수비수 데이비드 위어(David Weir)는 리버풀을 이긴 후 프리미어리그에서 2위 자리에 올랐음에도 유럽 축구에 대한 이야기를 꺼냈습니다.

Gemini 1.5 Flash는 이 문장을 다음과 같은 문으로 분할합니다.

  • "데이비드 웨어는 에버턴에서 수비수로 뛰고 있습니다."
  • "현재 에버튼은 프리미어십에서 2위를 달리고 있습니다."
  • "최근 경기에서 에버턴이 리버풀을 이겼어."
  • "데이비드 웨어는 에버턴이 유럽 축구에서 뛰는 것에 대한 논의를 최소화했습니다."

문을 확인합니다.

그런 다음 Gemini 1.5 Flash에 분할된 문과 비교하여 원래 문장을 분석하도록 요청했습니다. 모델은 각 문장의 유효성을 다음과 같이 분류했습니다.

  • : 원본 텍스트가 문장을 뒷받침합니다.
  • 아니요. 이 문구는 원본 텍스트와 모순됩니다.
  • 모르겠음. 이 진술이 뒷받침되는지 또는 원본 텍스트와 모순되는지 확인할 수 없습니다.

결과 분석

이 프로세스를 통해 모델을 비교하는 데 사용할 수 있는 두 가지 측정항목이 생성되었습니다.

  • 정렬: 모델이 원본 텍스트에서 지원되는 문장이 포함된 요약을 생성한 빈도입니다.
  • 정보량: 모델에서 생성된 요약에 포함된 평균 문 수입니다.
모델의 풍부도와 정렬을 비교하는 차트
그림 1. Gemma 2B, Gemma 2 2B, Gemini 1.5 Flash를 비교한 결과 모두 좋은 점수를 받았습니다.

정렬

정렬은 '아니요'로 표시된 문이 하나 이상 있는 요약의 수를 세고 총 요약 수로 나누어 계산합니다.

Gemini 1.5 Flash 모델의 정렬 점수가 가장 높으며 92%를 초과합니다. 즉, 사실을 고수하는 데 매우 능숙하며 사실을 꾸며내지 않습니다.

Gemma 2 2B의 점수는 78.64%로 우수한 정확도를 나타냅니다. 반면 이전 버전의 Gemma 2B는 정렬 점수가 낮습니다. 즉, 원본 텍스트에서 지원되지 않는 정보가 포함될 가능성이 더 높습니다.

풍부함

각 요약에 대해 모델이 생성한 구문 수를 평균하여 모델 풍부성을 계산했습니다.

Gemma 2 2B의 풍부도 점수는 9.1로 가장 높습니다. 이는 요약에 더 많은 세부정보와 주요 사항이 포함되어 있음을 나타냅니다. Gemini 1.5 Flash 모델은 풍부도 점수도 높아 8.4를 초과합니다. Gemma 2B의 풍부도 점수가 낮았으므로 원본 텍스트에서 중요한 정보를 많이 포착하지 못할 수 있습니다.

결론

Gemma 2 2B와 같이 클라이언트 측에서 실행할 수 있는 소형 모델이 우수한 품질의 출력을 생성할 수 있는 것으로 확인되었습니다. Gemini 1.5 Flash와 같은 클라우드 기반 모델은 상당한 양의 정보를 압축하여 원본 도움말과 일치하는 요약을 생성하는 데 탁월하지만, 애플리케이션 성능, 개인 정보 보호 및 보안 요구사항, 클라이언트 측 AI를 빌드할지 결정할 때 물어볼 수 있는 다른 질문과 함께 차이점을 고려해야 합니다.

Gemma 2 2B는 Gemma 2B보다 더 풍부하고 정렬된 요약을 생성할 수 있으므로 Gemma 모델군의 기능이 분명히 진화했습니다.

사용 사례 평가

이 문서에서는 LLM을 판정 기술로 사용할 때 가능한 작업을 간략하게 살펴봤을 뿐입니다. 요약을 사용해도 더 많은 측정항목을 확인할 수 있으며 결과가 다를 수 있습니다. 예를 들어 프롬프트를 사용하여 기사의 주요 사항을 파악한 다음 다른 프롬프트를 사용하여 이러한 주요 사항이 각 요약에 포함되어 있는지 확인할 수 있습니다.

텍스트 작성, 텍스트 재작성, 검색 증강 생성 (RAG)과 같은 다른 사용 사례는 동일한 측정항목에 대해 다른 결과를 얻거나 평가에 다른 측정항목을 사용해야 합니다.

이 접근 방식을 구현할 때는 사람이 출력을 평가하여 사용 사례에 가장 적합한 측정항목을 결정하는 방법을 생각해 보세요. DeepEval과 같이 사용 사례에 적합한 측정항목 세트가 이미 있는 기존 프레임워크를 살펴보는 것도 좋습니다.

모델을 평가하기 위한 심사자로 LLM을 구현했나요? @ChromiumDev에서 발견한 사항을 트윗하거나 LinkedIn의 개발자용 Chrome과 공유하세요.