예측 (또는 분석) AI는 기존 데이터를 이해하고 다음에 일어날 가능성이 높은 일을 예측하는 데 도움이 되는 알고리즘 모음입니다. 예측 AI 모델은 과거 패턴을 기반으로 사용자가 데이터를 이해하는 데 도움이 되는 다양한 분석 작업을 학습합니다.
- 분류: 데이터의 패턴을 기반으로 항목을 사전 정의된 카테고리로 그룹화합니다. 예를 들어 온라인 상점은 의도(조사, 구매, 반품)에 따라 방문자를 분류하여 그에 따라 추천을 조정할 수 있습니다.
- 회귀: 참여도, 세션 시간, 전환 확률과 같은 숫자 값을 예측합니다.
- 추천: 특정 사용자 또는 맥락과 가장 관련성이 높은 항목을 추천합니다. '다른 사용자가 조회한 항목' 또는 '진도에 따른 추천 튜토리얼'을 생각해 보세요.
- 예측 및 이상 감지: 모델이 트래픽 급증과 같은 미래 이벤트를 예측하거나 결제 이상 또는 사기와 같은 비정상적인 동작을 식별합니다.
음악 검색 도구와 같이 예측 AI를 기반으로 완전히 구축된 제품도 있습니다. 예측 AI가 맞춤 추천이 있는 스트리밍 웹사이트와 같은 결정론적 환경을 개선하는 경우도 있습니다. 예측 AI는 강력한 내부 지원 도구가 될 수도 있습니다. 제품 및 사용자 데이터를 분석하여 유용한 정보를 파악하고 더 스마트한 다음 단계를 안내하는 데 사용할 수 있습니다.
예측형 AI 루프
예측 AI 시스템 개발은 기회 정의, 데이터 준비, 모델 학습, 모델 평가, 모델 배포의 반복적인 사이클을 따릅니다.
구독 기반 생산성 앱 Do All The Things를 개발하고 있다고 가정해 보겠습니다. 이미 페이지 조회수, 세션 길이, 기능 사용, 구독 갱신과 같은 사용 데이터를 수집하고 있습니다. 이제 데이터에서 더 많은 실행 가능한 가치를 추출하려고 합니다. 예측형 AI 루프를 통해 이동하는 방법은 다음과 같습니다.
사용 사례 정의
지난 3개월 동안 이탈률이 증가했습니다. 사용자가 취소한 후 대응하는 대신 예측 AI를 사용하여 사용자가 취소하기 전에 이탈할 가능성이 높은 사용자를 식별해야 합니다. 목표는 고객 성공팀이 위험에 처한 사용자를 유지하기 위해 타겟팅된 사전 조치를 취할 수 있도록 조기 신호를 지원하는 것입니다.
예측 AI 사용 사례를 정의할 때는 먼저 질문에 데이터로 답할 수 있는지 확인하세요. 이미 수집한 데이터 또는 향후 현실적으로 수집할 수 있는 데이터일 수 있습니다. 이 단계에서는 예측이 의미 있고 실행 가능하도록 고객 성공, 성장, 마케팅팀과 같은 도메인 전문가와 협력해야 하는 경우가 많습니다.
명확한 문제 정의는 다음을 명시해야 합니다.
- 목표: 어떤 비즈니스 결과에 영향을 주려고 하나요? 예를 들어 사전 대응형 아웃리치를 사용 설정하여 고객 이탈을 줄이려고 합니다.
- 입력 데이터: 모델이 학습하는 과거 신호는 무엇인가요? 예를 들어 사용 패턴, 요금제 유형, 지원 상호작용을 제공합니다.
- 출력: 모델이 생성할 결과물은 무엇인가요? 예를 들어 모델이 각 사용자의 이탈 가능성 점수를 생성하도록 하려고 합니다.
- 사용자: 누가 예측을 사용하거나 예측에 따라 행동하나요? 예를 들어 이 데이터는 고객 성공 관리자를 위한 것입니다.
- 성공 기준: 영향을 어떻게 측정하나요? 예를 들어 이탈을 줄였는지 확인하기 위해 고객 유지율을 측정합니다.
처음에 이러한 세부정보를 파악하면 기술적으로는 문제가 없지만 사용되지 않는 맞춤 모델을 만드는 일반적인 함정을 피할 수 있습니다.
데이터 준비하기
모델에 유용한 학습 신호를 제공하려면 이상적인 예측으로 이전 데이터에 라벨을 지정해야 합니다. Do All The Things 사용자를 '이탈' 또는 '이탈하지 않음'으로 라벨 지정
그런 다음 고객 성공팀과 협력하여 이탈 예측과 가장 관련성이 높은 행동 기능을 파악합니다. 데이터 세트를 이러한 주요 기능으로 좁히고 불필요한 필드를 삭제하여 모델이 노이즈를 처리하지 않아도 되도록 합니다. 데이터 개인 정보 보호를 고려해야 합니다. 이름이나 이메일과 같은 개인 식별 정보 (PII)를 삭제하고 집계된 행동 데이터만 저장합니다.
다음 표는 결과 데이터 세트의 일부를 보여줍니다.
user_id |
plan_type |
avg_session_time (min) |
logins_last_30d |
features_used |
support_tickets |
churned |
| 00123 | 프리미엄 | 12.4 | 22 | 5 | 0 | 0 |
| 00124 | 무료 체험 | 5.8 | 3 | 1 | 2 | 1 |
| 00125 | 무료 | 18.1 | 30 | 7 | 0 | 0 |
| 00126 | 프리미엄 | 9.7 | 12 | 4 | 1 | 0 |
| 00127 | 무료 체험 | 4.2 | 2 | 1 | 3 | 1 |
이렇게 하면 모델에 깨끗한 숫자 및 범주형 입력 (예: plan_type 또는 avg_session_time)과 명확한 타겟 라벨 (churned)이 제공됩니다. 카테고리는 고유한 숫자 식별자로 변환해야 합니다.
마지막으로 데이터 세트를 세 개의 하위 집합으로 분할합니다.
- 모델을 학습하는 데 사용되는 학습 세트 (일반적으로 70~80%)
- 초매개변수를 조정하고 과적합을 방지하는 검증 세트 (개발 세트라고도 함)
- 완전히 보이지 않는 데이터에 대해 모델의 성능을 평가하는 데 사용되는 테스트 세트
이렇게 하면 모델이 암기된 이전 예시에 의존하는 대신 결정을 일반화할 수 있습니다.
모델 학습
대규모 사전 학습 모델을 기반으로 하는 경우가 많은 생성형 AI와 달리 대부분의 예측 AI 시스템은 자체 학습 모델을 사용합니다. 예측 작업은 제품과 사용자에게 매우 구체적이기 때문입니다. scikit-learn (Python), AutoML (노 코드 또는 로우 코드), TensorFlow.js (JavaScript)와 같은 도구를 사용하면 기본 수학에 대해 걱정하지 않고도 예측 모델을 더 쉽게 학습시키고 평가할 수 있습니다.
고객 이탈 예시에서는 정리된 학습 세트를 지도 분류 알고리즘(예: 로지스틱 회귀 또는 신경망)에 입력합니다. 여러 옵션을 시도하여 데이터에 가장 적합한 옵션을 확인하세요.
모델은 이탈과 상관관계가 있는 행동 패턴을 학습합니다. 마지막으로 각 사용자에게 확률 점수를 할당할 수 있습니다. 예를 들어 사용자 X가 다음 달에 취소할 위험이 72% 입니다.
각 학습 반복 후 검증 세트를 사용하여 결과 모델을 평가합니다. 초매개변수를 조정하여 모델의 성능을 개선할 수 있지만 데이터 세트를 타겟팅하여 개선할 수도 있습니다.
모델 평가
데이터 세트의 라벨은 모델 출력을 비교할 수 있는 정답을 제공합니다. 추적해야 할 주요 측정항목은 다음과 같습니다.
- 정밀도: '이탈'로 표시된 사용자 중 실제로 이탈한 사용자는 몇 명인가요?
- 재현율: 이탈한 사용자 중 모델이 포착한 사용자의 수입니다.
- F1 점수: 정밀도와 재현율의 균형을 맞추는 단일 숫자입니다. 하나를 과도하게 최적화하여 다른 하나를 희생하지 않고 전체 정확도를 측정하려는 경우에 유용합니다.
거짓양성이 너무 많으면 고객 유지 노력이 낭비되고 거짓음성이 너무 많으면 고객을 잃게 됩니다. 적절한 절충은 비즈니스 우선순위에 따라 다릅니다. 예를 들어 사용자가 떠나기 전에 더 많은 사용자를 포착할 가능성이 높아진다면 회사는 몇 번의 잘못된 알림을 처리하는 것을 선호할 수 있습니다.
모델 배포 및 유지관리
검증이 완료되면 분석 대시보드에 통합된 API 또는 경량 클라이언트 측 서비스를 사용하여 모델을 배포할 수 있습니다. 매일 사용자에게 점수를 매기고 이탈 위험 시각화 자료를 업데이트하여 팀에서 우선적으로 연락할 수 있습니다. 정확하고 신뢰할 수 있는 데이터를 유지하려면 머신러닝 작업팀 (MLOps)의 다음 교훈을 따르세요.
- 데이터 드리프트 모니터링: 사용자 행동이 바뀌고 학습 데이터가 더 이상 실제를 나타내지 않는 시점을 감지합니다.
- 예를 들어 주요 UI 재설계를 출시한 후 사용자가 기능과 다르게 상호작용하면 앱 제거 예측의 정확도가 떨어집니다.
- 실수에서 배우기: 잘못된 예측의 일반적인 패턴을 파악하고 타겟팅된 예시를 추가하여 다음 학습 주기를 개선합니다.
- 예를 들어 파워 사용자는 지원 티켓을 많이 열기 때문에 모델에서 이들을 자주 이탈 위험으로 표시합니다. 검토 후 문제 해결과 참여 중단을 구분하는 새로운 기능을 추가합니다.
- 정기적으로 재학습: 실적이 안정적으로 보이더라도 시즌별 패턴, 제품 업데이트 또는 가격 변경을 고려하여 모델을 주기적으로 새로고침합니다.
- 예를 들어 연간 요금제를 도입한 후 모델을 재학습시킵니다. 가격 구조가 갱신 전 사용자의 행동에 영향을 미치기 때문입니다.
이 수명 주기는 예측 AI의 핵심입니다. MLflow 및 Weights & Biases와 같은 도구를 사용하면 심층적인 ML 전문 지식 없이도 이 프로세스를 실행할 수 있습니다.
일반적인 문제 및 완화
가끔 오류가 발생할 수 있지만 실적과 사용자 신뢰를 저해할 수 있는 일반적인 근본 원인을 방지할 수 있습니다.
- 데이터 품질이 낮음: 입력 데이터에 노이즈가 있거나 불완전하면 예측에도 노이즈가 발생합니다. 이를 완화하려면 학습 전에 데이터를 시각화하고 검증하세요. 필요한 학습 신호가 있는지 확인하고 누락된 값을 처리합니다. 프로덕션에서 데이터 품질을 모니터링합니다.
과적합: 모델이 학습 데이터에서는 매우 잘 작동하지만 새로운 사례에서는 실패합니다. 이를 완화하려면 교차 검증, 정규화, 홀드아웃 데이터 세트를 사용하세요. 이렇게 하면 모델이 학습 예시를 넘어 일반화하는 데 도움이 됩니다.
데이터 드리프트: 사용자 행동과 환경은 변하지만 모델은 변하지 않습니다. 이를 완화하려면 재학습을 예약하고 정확도가 떨어지기 시작하는 시점을 감지하는 모니터링을 추가하세요.
잘못된 측정항목: 전체 정확도가 항상 사용자의 우선순위를 반영하지는 않습니다. 예를 들어 특정 실수의 '비용'이 더 중요할 수 있습니다. 사기 감지에서는 사기 사례를 놓치는 것 (거짓음성)이 무고한 사례를 신고하는 것 (거짓양성)보다 훨씬 심각합니다. 이를 완화하려면 사기 감지를 위한 실제 목표에 맞춰 측정항목을 조정하세요.
이러한 문제 대부분은 심각하지 않습니다. 시스템을 점진적으로 출시하고 문제가 발생하면 해결합니다.
이러한 간결하고 유연한 접근 방식의 핵심은 관측 가능성입니다. 모델의 버전을 지정하고, 정확도 특성과 모델을 빌드하는 데 사용된 도구를 기록하고, 시간 경과에 따른 성능을 추적하고, 모니터링을 활성 상태로 유지합니다. 문제가 발생하면 사용자가 알아채기 전에 문제를 포착하고 해결할 수 있습니다.
핵심 내용
예측 AI는 기존 데이터를 통찰력으로 전환하여 다음에 일어날 가능성이 높은 일과 조치를 취해야 할 위치를 보여줍니다. 가장 구체적이고 측정 가능한 형태의 AI입니다. 데이터로 표현할 수 있는 잘 정의된 문제에 집중하고, 제품이 발전함에 따라 계속 반복하며, 시간이 지남에 따라 실적을 모니터링하세요.
다음 모듈에서는 사용 가능한 데이터를 기반으로 새로운 것을 만드는 데 도움이 되는 생성형 AI에 대해 알아봅니다.
리소스
예측 AI의 수학적 원리를 이해하고 싶다면 다음 리소스를 검토하는 것이 좋습니다.
- 분류, 선형 회귀, 로지스틱 회귀에 관한 머신러닝 단기집중과정
- 강의 저자인 Janna Lipenkova는 The Art of AI Product Development: Delivering Business Value의 4장에서 예측 AI에 관해 자세히 설명합니다.
- Stuart Jonathan Russell과 Peter Norvig의 Artificial Intelligence: A Modern Approach 이 책은 1995년에 처음 출판되었으며 가장 최근 버전은 2021년에 출판되었습니다. AI 엔지니어링 프로그램에서 일반적으로 가르칩니다.
- Pattern Recognition and Machine Learning(크리스토퍼 M. 예측 AI 학습에 대한 매우 포괄적이고 학문적인 접근 방식을 제공한 Bishop에게 감사드립니다.
이해도 확인
예측 AI의 주요 기능은 무엇인가요?
패턴을 기반으로 항목을 사전 정의된 카테고리로 그룹화하는 작업은 무엇인가요?
'예측 AI 루프'에서 데이터 세트를 학습, 검증, 테스트 세트로 분할해야 하는 이유는 무엇인가요?
정밀도와 재현율의 균형을 맞춰 전반적인 정확도를 제공하는 측정항목은 무엇인가요?
데이터 드리프트란 무엇이며 어떻게 완화해야 하나요?