Cảm ơn bạn đã theo dõi Google I/O! Xem nội dung theo yêu cầu.

Chọn một mô hình nhỏ, hiệu quả

Rachel Lee Nabors

Ngày xuất bản: 10 tháng 11 năm 2025

Sau khi đọc về AI phù hợp, bạn sẽ biết rằng các mô hình nhỏ hơn bền vững hơn so với các mô hình cơ sở. Các ứng dụng này tiêu thụ ít năng lượng hơn và thậm chí có thể chạy trên thiết bị của người dùng, giúp giảm độ trễ và mang lại trải nghiệm hiệu quả hơn.

Bạn phải có chủ ý và chọn mô hình phù hợp cho trường hợp sử dụng của mình.

Nhưng làm cách nào để xác định mẫu bạn cần? Một cách tiếp cận là xác định các chỉ số thành công cho ứng dụng của bạn, sau đó tạo mẫu bằng một mô hình cơ sở. Mặc dù gần đây, nhiều mô hình nền tảng xuất hiện trên tin tức là mô hình ngôn ngữ lớn (LLM), nhưng mô hình nền tảng cũng bao gồm AI dự đoán, là những mô hình chuyên biệt và có thể phù hợp hơn với trường hợp sử dụng của bạn.

Sau khi xác thực các chỉ số thành công, hãy triển khai bằng các mô hình nhỏ hơn và thử nghiệm cho đến khi bạn tìm thấy mô hình nhỏ nhất có thể tạo ra kết quả đáp ứng các tiêu chí thành công của bạn.

Nguyên mẫu lớn, triển khai nhỏ

Để chọn mô hình phù hợp, hãy làm theo các bước sau:

Chứng minh rằng bạn có thể hoàn thành việc cần làm. Kiểm tra xem bạn có thể đạt được mục tiêu mình muốn hay không bằng cách sử dụng mô hình lớn nhất có thể. Đây có thể là một mô hình ngôn ngữ lớn, chẳng hạn như Gemini 2.5 Pro, hoặc một mô hình cơ sở khác.
Đặt tiêu chí thành công. Thu thập một bộ đầu vào và đầu ra lý tưởng. Ví dụ: một ứng dụng dịch có thể có đầu vào là các cụm từ bằng tiếng Anh và đầu ra là các cụm từ đó được dịch chính xác sang tiếng Tây Ban Nha.
Thử nghiệm từ nhỏ đến lớn. So sánh kết quả của các mô hình nhỏ hơn với tiêu chí kiểm thử của bạn. Bắt đầu từ mô hình nhỏ nhất. Kỹ thuật tạo câu lệnh có thể giúp bạn đạt được kết quả tốt hơn. Bạn cũng có thể tuyển dụng một mô hình lớn hơn để so sánh các kết quả đầu ra, nhằm giúp bạn tạo ra kết quả tốt hơn từ mô hình nhỏ hơn.
Chọn mô hình nhỏ nhất đưa ra câu trả lời chấp nhận được cho trường hợp sử dụng của bạn. Ví dụ: mô hình nhỏ nhất đưa ra bản dịch chính xác.

Bất kể mô hình được lưu trữ ở đâu, nếu mô hình đủ nhỏ để chạy trên thiết bị hoặc vẫn cần được lưu trữ trên máy chủ, thì việc sử dụng mô hình nhỏ sẽ hiệu quả hơn so với mô hình lớn.

Loại mô hình

Tôi đã phân loại các mô hình theo dữ liệu mà chúng xử lý: hình ảnh, âm thanh và văn bản. Tôi sẽ giới thiệu cho bạn các trường hợp sử dụng mẫu và một số mô hình hiện có.

Xử lý hình ảnh

Xử lý hình ảnh có thể là đánh giá hình ảnh tĩnh hoặc video.

Phân loại hình ảnh: Sử dụng cho mọi mục đích, từ tạo văn bản thay thế để tuân thủ các yêu cầu về khả năng tiếp cận cho đến sàng lọc nội dung để lọc hình ảnh không phù hợp trước khi chúng đến tay người dùng. Chọn phân loại hình ảnh này khi bạn cần hiểu nội dung trong một hình ảnh mà không cần quy trình đánh giá thủ công.

Các mô hình MobileNet, ResNeXt và ConvNeXt
Phát hiện đối tượng: Gắn thẻ các đối tượng cụ thể trong hình ảnh hoặc luồng video, tạo trải nghiệm thực tế tăng cường (AR) tương tác phản hồi các đối tượng ngoài đời thực hoặc xây dựng hệ thống quản lý kho hàng có thể xác định và đếm các mặt hàng. Chọn tính năng phát hiện vật thể khi bạn có ảnh hoặc video về một vật thể vô tri.

Mô hình Mô hình phát hiện vật thể, chẳng hạn như YOLOv8 và DETR
Phát hiện tư thế cơ thể: Dùng để điều khiển giao diện bằng cử chỉ hoặc chuyển động cơ thể, trải nghiệm dùng thử ảo cho quần áo và các nền tảng chăm sóc sức khoẻ từ xa theo dõi chuyển động của bệnh nhân và tiến trình phục hồi. Chọn tính năng phát hiện tư thế cơ thể khi đánh giá hình ảnh hoặc video về cơ thể của một người.

Mô hình Mô hình ước tính tư thế, chẳng hạn như MoveNet và BlazePose
Phát hiện điểm chính trên khuôn mặt: Dùng cho các hệ thống xác thực khuôn mặt an toàn, phát hiện cảm xúc để cá nhân hoá trải nghiệm người dùng, theo dõi chuyển động mắt để có các chế độ kiểm soát hỗ trợ tiếp cận và bộ lọc ảnh hoặc ứng dụng làm đẹp theo thời gian thực. Chọn mô hình này khi đánh giá hình ảnh hoặc video về khuôn mặt của một người.

Các mô hình MediaPipe FaceMesh và OpenPose
Mô hình phát hiện tư thế bàn tay: Sử dụng các mô hình này cho chế độ kiểm soát giao diện không cần chạm, trong đó người dùng thao tác bằng cử chỉ tay, ứng dụng dịch ngôn ngữ ký hiệu để hỗ trợ tiếp cận và các công cụ sáng tạo phản hồi chuyển động của bàn tay để vẽ hoặc thiết kế. Ngoài ra, hãy cân nhắc sử dụng các chế độ này trong những môi trường không phù hợp để chạm vào màn hình (y tế, dịch vụ thực phẩm) hoặc khi người dùng ở xa các nút điều khiển, chẳng hạn như trong các buổi thuyết trình mà người nói điều khiển các trang trình bày bằng cử chỉ.

Mô hình Mô hình ước tính tư thế bàn tay, chẳng hạn như MediaPipe Hands.
Nhận dạng chữ viết tay: Dùng để chuyển đổi ghi chú viết tay thành văn bản kỹ thuật số có thể tìm kiếm, xử lý thông tin đầu vào bằng bút cảm ứng cho các ứng dụng ghi chú và số hoá biểu mẫu hoặc tài liệu do người dùng tải lên.

Mô hình Mô hình Nhận dạng ký tự quang học (OCR), chẳng hạn như MiniCPM-o, H2OVL-Mississippi và Surya.
Mô hình phân đoạn hình ảnh: Chọn khi bạn cần có nền nhất quán cho hình ảnh hoặc cần chỉnh sửa hình ảnh. Ví dụ: bạn có thể sử dụng các công cụ này để xoá nền một cách chính xác, sàng lọc nội dung nâng cao để xác định các khu vực cụ thể cần lưu ý trong hình ảnh và sử dụng các công cụ chỉnh sửa ảnh tinh vi để tách biệt các phần tử cụ thể, chẳng hạn như ảnh hồ sơ và ảnh sản phẩm.

Các mô hình Segment Anything (SAM), Mask R-CNN
Tạo hình ảnh: Sử dụng để tạo hình ảnh mới theo yêu cầu mà không cần có giấy phép. Bạn có thể dùng các mô hình này để tạo hình đại diện được cá nhân hoá cho hồ sơ người dùng, biến thể hình ảnh sản phẩm cho danh mục thương mại điện tử và hình ảnh tuỳ chỉnh cho quy trình tiếp thị hoặc tạo nội dung.

Mô hình Mô hình khuếch tán, chẳng hạn như Nano Banana, Flux và Qwen Image

Xử lý âm thanh

Chọn một mô hình xử lý âm thanh cho các tệp âm thanh.

Phân loại âm thanh: Sử dụng khi cần xác định và mô tả âm thanh mà không cần quy trình đánh giá thủ công. Ví dụ: tính năng nhận dạng nhạc nền, âm thanh môi trường hoặc nội dung lời nói trong tệp nghe nhìn tải lên theo thời gian thực, tính năng gắn thẻ nội dung tự động cho thư viện âm thanh và các chế độ kiểm soát giao diện người dùng dựa trên âm thanh.

Mô hình Wav2Vec2 và AudioMAE
Tạo âm thanh: Tạo nội dung âm thanh theo yêu cầu mà không cần cấp phép. Ví dụ: bạn có thể dùng API này để tạo hiệu ứng âm thanh tuỳ chỉnh cho trải nghiệm web tương tác, tạo nhạc nền dựa trên lựa chọn ưu tiên hoặc nội dung của người dùng và tạo các thành phần thương hiệu âm thanh như âm thanh thông báo hoặc phản hồi giao diện.

Mô hình Có nhiều mô hình tạo âm thanh chuyên biệt. Những câu hỏi này thường rất cụ thể, vì vậy tôi sẽ không liệt kê các mô hình.
Chuyển văn bản sang lời nói (TTS): Chuyển nội dung bằng văn bản thành lời nói nhất quán, tự nhiên để tuân thủ các yêu cầu về hỗ trợ tiếp cận, tạo lời tường thuật bằng giọng nói cho nội dung giáo dục hoặc hướng dẫn và xây dựng giao diện đa ngôn ngữ có thể nói văn bản bằng ngôn ngữ mà người dùng ưu tiên.

Mô hình Orpheus và Sesame CSM
Chuyển lời nói sang văn bản (STT): Chuyển lời nói của con người thành văn bản, chẳng hạn như để chép lời theo thời gian thực cho các sự kiện hoặc cuộc họp trực tiếp, chức năng tìm kiếm và điều hướng bằng giọng nói, cũng như tạo phụ đề tự động để hỗ trợ tiếp cận nội dung video.

Các mô hình Whisper Web Turbo, NVIDIA Canary và Kyutai

Xử lý văn bản

Phân loại ngôn ngữ tự nhiên (NLP): Sử dụng để tự động sắp xếp và định tuyến một lượng lớn văn bản, hệ thống gắn thẻ và hệ thống kiểm duyệt. Văn bản có thể là tin nhắn của người dùng hoặc phiếu yêu cầu hỗ trợ, phát hiện cảm xúc trong ý kiến phản hồi của khách hàng hoặc nội dung đề cập trên mạng xã hội, đồng thời lọc nội dung rác hoặc nội dung không phù hợp trước khi nội dung đó đến được với người dùng khác.

Mô hình BERT, DistilBERT và RoBERTa
AI đàm thoại: Xây dựng giao diện trò chuyện và hệ thống đàm thoại. Chatbot hỗ trợ khách hàng, trợ lý AI cá nhân và các hoạt động tương tác đàm thoại tương tự là một số trường hợp sử dụng hiệu quả nhất cho LLM. Rất may là có những mô hình ngôn ngữ đủ nhỏ để phù hợp với thiết bị của bạn, đồng thời cần ít năng lượng hơn nhiều để huấn luyện và nhắc nhở.

Các mô hình Gemma 2 27B, Llama 3.1 và Qwen2.5

Lưu ý: Các mô hình ngôn ngữ nhỏ (SLM) có khả năng xử lý hầu hết các tác vụ lập trình có tác nhân, với chi phí gấp 10 đến 30 lần về mức tiêu thụ năng lượng.
Mô hình dịch Dùng để hỗ trợ nhiều ngôn ngữ trong ứng dụng của bạn. Các mô hình ngôn ngữ cục bộ có thể xử lý bản dịch ngôn ngữ theo thời gian thực, chuyển đổi nội dung do người dùng tạo sang nhiều ngôn ngữ cho các nền tảng toàn cầu và cho phép dịch tài liệu riêng tư để giữ nội dung nhạy cảm trên thiết bị của người dùng.

Mô hình Các mô hình ngôn ngữ nhỏ (SLM) như Gemma Nano, Granite 1.5B, GSmolLM3 và Qwen 3.4B

Đọc nhãn dinh dưỡng

Các mô hình khác nhau tiêu thụ lượng tài nguyên khác nhau khi chạy trên phần cứng khác nhau ở các vị trí khác nhau. Hiện chưa có tiêu chuẩn đo lường để so sánh, nhưng có một phong trào nhằm đưa thông tin này vào "nhãn dinh dưỡng" của AI.

Thẻ mô hình, do Margaret Mitchell và các đồng nghiệp tại Google giới thiệu vào năm 2018, là một phương pháp tiêu chuẩn hoá để báo cáo mục đích sử dụng, các hạn chế, các yếu tố đạo đức và hiệu suất dự kiến của mô hình. Hiện nay, nhiều công ty đang sử dụng một dạng thẻ mô hình, bao gồm cả Hugging Face, Meta, Microsoft.

Bảng thông tin về AI của IBM, bao gồm vòng đời, trách nhiệm giải trình, hoạt động quản trị, việc tuân thủ, được ưa chuộng hơn trong môi trường doanh nghiệp. Các khung pháp lý, chẳng hạn như Đạo luật về AI của Liên minh Châu Âu, Khung quản lý rủi ro AI của NIST và ISO 42001 yêu cầu phải có tài liệu này.

Google kêu gọi tính minh bạch về chi phí suy luận trong toàn ngành. Bạn có thể thêm những số liệu này vào thẻ mô hình và bảng thông tin. Hugging Face đã thêm chi phí carbon vào thẻ mô hình và họ đã nỗ lực tiêu chuẩn hoá việc đo lường hiệu suất năng lượng bằng sáng kiến Điểm năng lượng AI.

Ủng hộ AI phù hợp

AI phù hợp là lựa chọn bền vững, hiệu quả và thiết thực cho khách hàng cũng như doanh nghiệp của bạn.

Bạn có thể thúc đẩy ngành phát triển bằng cách yêu cầu các mô hình được lưu trữ mà công ty bạn áp dụng phải công bố các yêu cầu cơ bản về tài nguyên huấn luyện và suy luận. Nếu có đủ khách hàng yêu cầu tính minh bạch, thì các nhà cung cấp có nhiều khả năng sẽ công bố những thông tin chi tiết đó.