게시일: 2024년 10월 30일
대규모 언어 모델 (LLM)로 기능을 빌드하는 것은 기존의 소프트웨어 엔지니어링과는 상당히 다릅니다. 개발자는 비확정 결과, 사전 처리 입력, 사후 처리 결과를 처리하기 위해 프롬프트 엔지니어링을 배워야 합니다.
Google에 공유해 주신 문제 중 하나는 LLM의 출력을 테스트하고 유효성과 품질을 확인하는 데 시간이 많이 걸린다는 것입니다. 개발자는 종종 다양한 입력을 사용하여 출력을 일괄 생성한 후 사람의 판단을 사용하여 수동으로 검증합니다.
다양한 모델과 프롬프트의 결과를 평가하는 더 확장 가능한 접근 방식은 판사로서의 LLM 기법입니다. 이 기법을 사용하면 인간의 판단에 의존하는 대신 모델 검증을 다른 LLM에 위임합니다. 두 번째 LLM은 더 큰 클라우드 기반 LLM이어야 하며, 이 LLM은 더 나은 추론 기능을 보유할 가능성이 높습니다.
이 문서에서는 요약을 사용하여 다양한 모델을 비교하는 방법을 설명하고, 보너스로 Gemma에서 Gemma 2로의 품질 개선을 보여줍니다.
비교할 모델 선택 및 데이터 준비
요약에서 세 가지 모델의 기능을 평가했습니다. 클라이언트 측에서 실행할 수 있는 Google의 두 가지 오픈 모델인 Gemma와 Gemma 2의 결과를 모두 20억 개의 매개변수 크기로 비교했습니다. 대조적으로 더 크고 기능이 더 우수한 클라우드 기반 모델인 Gemini 1.5 Flash도 평가했습니다.
비즈니스, 엔터테인먼트, 정치, 스포츠, 기술과 같은 영역을 다루는 2,225개의 BBC 기사 데이터 세트를 사용하고 선택한 각 모델을 사용하여 각 기사의 요약을 생성했습니다. 모든 모델에 동일한 프롬프트가 사용되었습니다.
기사를 한 단락으로 요약합니다.
Google은 원본 도움말을 저장하고 각 단계에서 쉽게 액세스할 수 있도록 요약을 데이터베이스에 생성했습니다.
요약을 분석하고 점수를 매길 심사자를 선택합니다.
요약 품질을 분석하기 위해 Gemini 1.5 Flash를 사용하여 Gemma 2B와 Gemma 2 2B로 생성된 요약을 판단했습니다. Google의 구체적인 접근 방식은 DeepEval의 요약 측정항목에 포함된 정렬을 기반으로 합니다.
일치도는 요약에 포함된 문장이 요약의 기반이 되는 원본 콘텐츠에서 뒷받침되는 빈도를 측정하는 측정항목입니다.
평가 절차는 두 단계로 나뉩니다. 먼저 모델에 각 요약을 별도의 문장으로 나누도록 요청했습니다. 그런 다음 각 문장이 원본 기사 텍스트에서 뒷받침되는지 확인하도록 모델에 요청했습니다.
요약에서 문장 추출
Gemini 1.5 Flash에 긴 텍스트를 별도의 문이 되도록 분할하도록 요청했습니다. 예를 들면 다음과 같습니다.
에버튼 수비수 데이비드 웨어는 리버풀을 꺾고 프리미어십 2위에 올라 있음에도 불구하고 유럽 축구에 대한 이야기를 일축했습니다.
Gemini 1.5 Flash는 이 문장을 다음과 같은 문으로 분할합니다.
- "데이비드 웨어는 에버턴에서 수비수로 뛰고 있습니다."
- "현재 에버튼은 프리미어십에서 2위를 달리고 있습니다."
- "최근 경기에서 에버턴이 리버풀을 이겼어."
- "데이비드 웨어는 에버턴이 유럽 축구에서 뛰는 것에 대한 논의를 최소화했습니다."
문을 확인합니다.
그런 다음 Gemini 1.5 Flash에 분할된 문과 비교하여 원래 문장을 분석하도록 요청했습니다. 모델은 각 문장의 유효성을 다음과 같이 분류했습니다.
- 예: 원본 텍스트에서 해당 문구를 확인할 수 있습니다.
- 아니요. 이 문구는 원본 텍스트와 모순됩니다.
- 모르겠음. 이 진술이 뒷받침되는지 또는 원본 텍스트와 모순되는지 확인할 수 없습니다.
결과 분석
이 프로세스를 통해 모델을 비교하는 데 사용할 수 있는 두 가지 측정항목이 생성되었습니다.
- 정렬: 모델이 원본 텍스트에서 지원되는 문장이 포함된 요약을 생성한 빈도입니다.
- 정보량: 모델에서 생성된 요약에 포함된 평균 문 수입니다.
정렬
일치는 '아니요'로 표시된 문장이 하나 이상 있는 요약 수를 집계하고 이를 총 요약 수로 나눈 값으로 계산했습니다.
Gemini 1.5 Flash 모델의 정렬 점수가 가장 높으며 92%를 초과합니다. 즉, 사실에 충실하고 허구를 지어내지 않습니다.
Gemma 2 2B의 점수는 78.64%로 우수한 정확도를 나타냅니다. 반면 이전 버전의 Gemma 2B는 정렬 점수가 낮습니다. 즉, 원본 텍스트에서 지원되지 않는 정보가 포함될 가능성이 더 높습니다.
풍부함
각 요약에 대해 모델에서 생성된 문이 평균화되어 모델의 풍부도가 계산되었습니다.
Gemma 2 2B의 풍부도 점수는 9.1로 가장 높습니다. 이는 요약에 더 많은 세부정보와 주요 사항이 포함되어 있음을 나타냅니다. Gemini 1.5 Flash 모델은 풍부도 점수도 높아 8.4를 초과합니다. Gemma 2B의 풍부도 점수가 낮았으므로 원본 텍스트에서 중요한 정보를 많이 포착하지 못할 수 있습니다.
결론
Gemma 2 2B와 같이 클라이언트 측에서 실행할 수 있는 소형 모델이 우수한 품질의 출력을 생성할 수 있는 것으로 확인되었습니다. Gemini 1.5 Flash와 같은 클라우드 기반 모델은 상당한 양의 정보를 압축하여 원본 도움말과 일치하는 요약을 생성하는 데 탁월하지만, 애플리케이션 성능, 개인 정보 보호 및 보안 요구사항, 클라이언트 측 AI를 빌드할지 결정할 때 물어볼 수 있는 다른 질문과 함께 차이점을 고려해야 합니다.
Gemma 2 2B는 Gemma 2B보다 더 풍부하고 일치도가 높은 요약을 생성할 수 있으므로 Gemma 모델 제품군의 기능이 분명히 진화하고 있습니다.
사용 사례 평가
이 문서에서는 LLM을 판정 기술로 사용할 때 가능한 작업을 간략하게 살펴봤습니다. 요약을 사용해도 더 많은 측정항목을 확인할 수 있으며 결과가 다를 수 있습니다. 예를 들어 프롬프트를 사용하여 기사의 주요 사항을 파악한 다음 다른 프롬프트를 사용하여 이러한 주요 사항이 각 요약에 포함되어 있는지 확인할 수 있습니다.
텍스트 작성, 텍스트 재작성, 검색 증강 생성 (RAG)과 같은 다른 사용 사례에서는 동일한 측정항목에 대해 다른 결과가 나올 수 있거나 평가에 다른 측정항목을 사용해야 할 수 있습니다.
이 접근 방식을 구현할 때는 사람이 출력을 평가하여 사용 사례에 가장 적합한 측정항목을 결정하는 방법을 생각해 보세요. DeepEval과 같이 사용 사례에 적합한 측정항목 세트가 이미 있는 기존 프레임워크를 살펴보는 것도 좋습니다.
모델을 평가하기 위한 심사자로 LLM을 구현했나요? @ChromiumDev에서 발견한 사항을 트윗하거나 LinkedIn의 개발자용 Chrome에서 공유하세요.