게시일: 2025년 11월 10일
AI로 웹사이트와 웹 앱을 빌드할 때 ChatGPT, Gemini, Claude와 같은 대규모 언어 모델 (LLM)로 프로토타입을 만든 다음 해당 구현을 프로덕션에 배포했을 수 있습니다. LLM은 파운데이션 모델의 한 유형으로, 매우 크고 사전 학습된 모델이며 리소스 집약적이고 비용이 많이 들며 작업에 가장 적합한 도구가 아닌 경우가 많습니다. 작고 로컬이며 작업별 모델은 리소스를 적게 사용하며, '모든 상황에 적합한' 기본 모델보다 더 나은 응답을 더 빠른 속도로 더 저렴한 비용으로 제공하는 경우가 많습니다.
더 나은 모델을 선택하면 더 지속 가능한 접근 방식을 선택하는 것이며, 이를 적절한 규모의 AI라고 부릅니다. 적절한 크기의 AI는 다음과 같은 이점을 제공합니다.

- 모델이 원격 서버로의 왕복 대신 로컬에서 실행될 때 사용자의 지연 시간 감소
- 사용하지 않는 기능에 대한 비용을 지불하지 않아도 되므로 API 비용이 절감됩니다.
- 오프라인 앱 액세스를 통해 클라이언트 측 온디바이스 모델에 액세스하여 더 안정적인 환경을 만들 수 있습니다.
파운데이션 모델은 일반적인 추론과 대화에 탁월하지만, 텍스트 분류나 데이터 추출과 같은 특정 작업에 사용하는 것은 맥도날드에 가기 위해 포뮬러 1 자동차를 사용하는 것과 같습니다. 기술적으로 가능하지만 매우 비효율적이며 승객에게 불편합니다. 대신 실제 필요에 맞게 구현하세요.
지속 가능한 AI 관행과 최적의 사용자 환경은 서로 경쟁하는 우선순위가 아닙니다. 우선순위는 동일하지만 표현이 다릅니다.
AI의 환경 영향을 평가하는 한 가지 방법은 다음과 같습니다.
- 학습: 초기 모델 학습에는 상당한 리소스가 필요합니다. 이 최적화 및 '학습'은 모델 제공업체에서 관리합니다.
- 추론: 학습된 모델에 새로운 입력 (프롬프트)을 제공하여 출력 (응답 텍스트)을 생성할 때 추론을 실행합니다. 학습과 비교할 때 추론은 훨씬 적은 리소스를 사용합니다.
학습은 고정 비용이지만 추론 비용은 사용량에 따라 확장되므로 모델 선택은 제어할 수 있는 주요 요소입니다. 사용 사례와 지구를 위해 정보에 입각한 선택을 하여 책임감 있는 AI 개발을 지원할 수 있습니다.
사용자 중심 AI 구현
모델 중심 AI가 아닌 사용자 중심 AI를 구축하세요. AI가 앱을 더 쉽게 사용하도록 하거나 사용자의 작업량 또는 컨텍스트 전환량을 줄일 수 있는 작업을 고려해 보세요.
예를 들어 특정 식당에서 외식하는 사용자에게 포인트를 제공하는 Rewarding Eats라는 비즈니스를 운영한다고 가정해 보겠습니다. 고객이 직접 입력하도록 요구하는 대신 AI를 사용하여 영수증 이미지에서 식당 이름과 총 지출을 스캔할 수 있습니다. 이 기능을 사용하면 애플리케이션의 사용자 환경이 개선될 수 있습니다.
사용자 중심 AI를 빌드할 때는 다음 사항을 고려하세요.
- 작업 요구사항을 정의합니다. AI가 어떤 작업을 수행해야 하나요? 전적으로 텍스트 기반인가요, 아니면 오디오나 시각적 요소가 포함되어 있나요?
- 적절한 모델을 선택합니다. 모델마다 효율적인 작업이 다르며, 설치 공간이 더 작은 경우가 많습니다.
- 배포 제약조건 이해하기 모델이 어디에 있어야 할까요? 데이터는 어디에 저장되나요? 사용자가 안정적인 연결을 사용할 수 있나요?
- 점진적 개선으로 구현하여 가장 빠르고 안전한 사용자 환경을 제공하세요.
작업 요구사항 정의
'AI를 사용할 수 있는 곳'이나 '추가할 AI 기능'을 찾는 대신 '원활한 경험은 어떤 모습일까?'라고 질문해야 합니다. 회사의 규모에 따라 제품 관리자와 대화해야 합니다.
예시 앱인 Rewarding Eats를 살펴보겠습니다. 가장 먼저 물어야 할 질문은 '이 작업에 AI가 필요한가?'입니다.

기반 모델은 프롬프트를 사용하여 영수증에서 비용을 초안으로 작성할 수 있습니다. 하지만 이 문제를 처리하는 더 효율적인 방법은 큰 모델을 전혀 필요로 하지 않습니다. 광학 문자 인식 (OCR)을 사용하여 이미지에서 텍스트를 파싱하고 텍스트 분류 모델과 같은 작업별 모델에 전달하여 파싱된 텍스트에서 항목과 비용을 식별합니다. 이 작업은 서버에 데이터를 전송하지 않고 사용자의 기기에서 실행할 수 있습니다.
대부분의 경우 파운데이션 모델이 필요하다고 생각되면 문제를 별도의 작업으로 분류해야 합니다.
적절한 모델 선택
완료하려는 작업을 파악한 후 작업에 적합한 모델 유형과 모델을 선택할 수 있습니다. 파운데이션 모델을 사용하는 것이 더 쉽지만, 소형 모델을 사용하면 작업을 더 빠르고 저렴하게 완료할 수 있습니다. 작업을 이해하면 작업을 처리할 적절한 소형 태스크별 모델을 선택할 수 있습니다.
사용할 수 있는 모델 유형과 모델이 다양하므로 모델 선택에 관한 자세한 내용을 읽고 프로젝트에 적합한 모델을 선택하세요.
모델에 적합한 위치 선택
파운데이션 모델은 가장 강력한 데스크톱에서도 실행하기에 너무 크지만 소규모 LLM, 소규모 언어 모델(SLM), 태스크별 모델은 다양한 기기에서 실행할 수 있습니다.
| 권장하지 않음 | 권장하지 않음 | 권장 | |
| 소규모 언어 모델 (SLM) | 권장 | 권장 | 권장 |
| 파운데이션 모델 | 권장하지 않음 | 권장하지 않음 | 권장 |
SLM은 편리하지만 일반적이지 않습니다. 휴대전화는 수십억 대에 달하지만, 최신 모델 중에서도 고가 모델만 로컬 SLM을 실행할 수 있습니다. 이는 시장의 작은 비율입니다.
이 매트릭스를 사용하여 모델에 가장 적합한 위치를 결정하세요.
| 측정항목 | 클라이언트 측 / 로컬 | 서버 측 / 원격 |
|---|---|---|
| 연결 | 오프라인 모드 필요, 불안정한 네트워크, 보안 시설 | 상시 온라인 환경 |
| 데이터 위치 | 사용자 사진, 텍스트 입력, 개인 파일 처리 | 서버 측 문서, 데이터베이스 작업 |
| 사용 패턴 | 빈도가 높은 호출 (채팅 번역, 실시간 분석) | 가끔 복잡한 작업 |
| 대역폭 | 모바일 사용자, 농촌 지역, 대용량 파일 출력 | 무제한 광대역, 작은 응답 |
| 개인정보 및 보안 | 규제 데이터 (의료, 금융), 엄격한 규정 준수 | 표준 비즈니스 데이터, 확립된 보안 인프라 |
| 배터리 영향 | 데스크톱 앱, 전력 허용 사용 사례 | 배터리가 제한된 모바일 앱 |
클라이언트 측 추론, 점진적 개선, 하이브리드
TensorFlow.js, Transformers.js, ONNX.js와 같은 라이브러리를 사용하면 애플리케이션에서 사용자 데이터를 사용하여 클라이언트 측 추론을 실행할 수 있습니다. 모델을 적절한 형식으로 변환한 다음 원격으로 호스팅하거나 앱에 직접 삽입합니다. 최고의 사용자 환경은 미리 로드된 모델, 다운로드 가능한 모델, 원격 모델을 원활하게 혼합하여 사용자가 타협 없이 작업을 완료할 수 있도록 합니다.
보안 (또는 크기 요구사항)을 위해 원격 클라우드 호스팅 모델을 사용하는 것이 좋지만 연결이 끊겼을 때 충분한 로컬 모델을 사용할 수 있도록 하면 유연한 환경을 만들 수 있습니다.
궁극적으로 모델 배포에는 세 가지 접근 방식이 있습니다. 필요에 가장 적합한 옵션을 선택하세요.
- 로컬 우선: 앱에 오프라인 요구사항, 고빈도 사용, 민감한 데이터가 있습니다.
- 원격 우선: 복잡한 추론, 대규모 모델, 사용 빈도가 낮음
- 하이브리드 접근 방식: API를 사용하는 동안 작은 모델을 다운로드하고 준비가 되면 전환합니다.
다음 단계
기술은 구현을 따르는 경우가 많습니다. 개발자가 사용자에게 더 나은 경험을 제공하고 세상에 더 나은 결과를 가져올 수 있도록 업계의 방향에 영향을 미치는 가장 좋은 방법은 다음과 같습니다.
- 작업에 적합한 도구를 선택하세요. 작은 모델은 리소스를 적게 소비하며 프롬프트 엔지니어링의 도움을 받아 대규모 모델만큼 성능을 발휘하는 경우가 많습니다. 지연 시간이 단축되었습니다.
- 추론 및 학습 비용 투명성 요구 회사에서 이러한 수치를 공개하는 모델을 우선시하도록 요청하세요.
- 모델을 데이터 근처에 배치하여 서버로의 왕복 비용을 줄입니다.
- 이미 사용 가능한 항목 사용 기기에 이미 모델이 있는 경우 해당 모델을 먼저 사용합니다.
리소스
이러한 주제에 대해 자세히 알아보려면 이 글을 작성하는 데 사용한 다음 리소스를 참고하세요. 읽을 만한 가치가 있습니다.
모델 성능 및 연구
- 소규모 언어 모델은 에이전트 AI의 미래입니다 (NVIDIA 연구 논문): SLM 기능에 관한 연구 지원
- Mistral의 환경 영향 감사: 학습 및 추론 비용 투명성
- Google의 추론 비용 연구: 환경 영향 측정
- 자연 연구: AI와 인간의 환경 영향 비교: AI와 인간의 작업 완료 비교 분석
- AI 환경 영향 토론: 환경 담론에 관한 맥락
구현 및 개발 도구
- TensorFlow.js 모델 로드: 클라이언트 측 모델 배포
- Transformers.js 예시: 브라우저 기반 모델 추론
- ONNX.js 런타임: 교차 플랫폼 모델 배포
- Firebase 하이브리드 AI 가이드: 로컬 및 원격 모델 통합