Ngày xuất bản: 10 tháng 11 năm 2025
Khi xây dựng trang web và ứng dụng web bằng AI, có thể bạn đã tạo mẫu bằng một mô hình ngôn ngữ lớn (LLM), chẳng hạn như ChatGPT, Gemini hoặc Claude, sau đó triển khai mẫu đó vào sản xuất. LLM là một loại mô hình nền tảng, một mô hình rất lớn, được huấn luyện trước, tốn nhiều tài nguyên, đắt tiền và thường không phải là công cụ tốt nhất cho công việc. Các mô hình nhỏ hơn, cục bộ và dành riêng cho từng tác vụ tiêu thụ ít tài nguyên hơn và thường mang lại phản hồi tốt hơn, nhanh hơn với chi phí thấp hơn so với các mô hình cơ sở "một kích thước phù hợp với tất cả".
Khi chọn một mô hình tốt hơn, bạn đang chọn một phương pháp bền vững hơn, mà chúng tôi sẽ gọi là AI phù hợp. AI phù hợp sẽ mang lại:

- Giảm độ trễ cho người dùng khi các mô hình chạy cục bộ, thay vì khứ hồi đến các máy chủ ở xa.
- Giảm chi phí API khi bạn không phải trả tiền cho các chức năng không dùng đến.
- Quyền truy cập ứng dụng khi không có mạng vào các mô hình phía máy khách trên thiết bị, tạo ra trải nghiệm đáng tin cậy hơn.
Mặc dù các mô hình cơ sở có khả năng suy luận và trò chuyện nói chung, nhưng việc sử dụng các mô hình này cho các tác vụ cụ thể (chẳng hạn như phân loại văn bản hoặc trích xuất dữ liệu) cũng giống như việc sử dụng xe đua Công thức 1 để đến McDonald's. Về mặt kỹ thuật, điều này có thể thực hiện được nhưng rất kém hiệu quả (và khiến hành khách của bạn cảm thấy không thoải mái). Thay vào đó, hãy điều chỉnh việc triển khai cho phù hợp với nhu cầu thực tế của bạn.
Các hoạt động AI bền vững và trải nghiệm người dùng tối ưu không phải là những ưu tiên cạnh tranh. Đây là cùng một mức độ ưu tiên nhưng được thể hiện theo cách khác.
Một cách để đánh giá tác động của AI đến môi trường là:
- Huấn luyện: Quá trình huấn luyện mô hình ban đầu đòi hỏi nhiều tài nguyên. Hoạt động tối ưu hoá và "học" này do nhà cung cấp mô hình quản lý.
- Suy luận: Bạn thực hiện suy luận khi cung cấp cho một mô hình đã được huấn luyện đầu vào mới (một câu lệnh) để tạo ra đầu ra (văn bản phản hồi). So với quá trình huấn luyện, quá trình suy luận sử dụng ít tài nguyên hơn đáng kể.
Huấn luyện là một chi phí cố định, nhưng chi phí suy luận sẽ tăng theo mức sử dụng. Điều này khiến việc lựa chọn mô hình trở thành một yếu tố chính mà bạn có thể kiểm soát. Bạn có thể đưa ra lựa chọn sáng suốt cho trường hợp sử dụng của mình và cho hành tinh, đồng thời hỗ trợ quá trình phát triển AI có trách nhiệm.
Triển khai AI đặt người dùng lên hàng đầu
Thay vì xây dựng AI dựa trên mô hình, hãy xây dựng AI dựa trên người dùng. Hãy cân nhắc những việc mà AI có thể thực hiện để giúp người dùng dễ dàng sử dụng ứng dụng của bạn hơn hoặc giảm khối lượng công việc của người dùng hoặc số lần chuyển đổi ngữ cảnh mà họ phải thực hiện.
Ví dụ: giả sử bạn điều hành một doanh nghiệp có tên là Rewarding Eats. Doanh nghiệp này tặng điểm cho người dùng khi họ ăn tại một số nhà hàng nhất định. Bạn có thể sử dụng AI để quét hình ảnh biên nhận nhằm tìm tên nhà hàng và tổng số tiền đã chi tiêu, thay vì yêu cầu khách hàng nhập thông tin đó theo cách thủ công. Tính năng này có thể cải thiện trải nghiệm người dùng của ứng dụng.
Khi xây dựng AI lấy người dùng làm trung tâm:
- Xác định các yêu cầu đối với nhiệm vụ. AI cần thực hiện những việc gì? Chúng hoàn toàn dựa trên văn bản hay có cả thành phần âm thanh hoặc hình ảnh?
- Chọn mô hình phù hợp. Các mô hình khác nhau sẽ hiệu quả hơn ở các tác vụ khác nhau và thường có dấu vết nhỏ hơn.
- Tìm hiểu các hạn chế khi triển khai. Mô hình nên nằm ở đâu? Dữ liệu sẽ nằm ở đâu? Người dùng có kết nối ổn định không?
- Triển khai bằng tính năng cải tiến tăng dần để mang đến trải nghiệm người dùng nhanh nhất và an toàn nhất.
Xác định các yêu cầu đối với nhiệm vụ
Thay vì tìm kiếm "những nơi để sử dụng AI" hoặc "các tính năng AI cần thêm", bạn nên tự hỏi: "Trải nghiệm liền mạch sẽ trông như thế nào?" Tuỳ thuộc vào quy mô công ty của bạn, bạn nên trao đổi với các nhà quản lý sản phẩm.
Hãy xem ứng dụng mẫu của chúng tôi, Rewarding Eats. Câu hỏi đầu tiên cần đặt ra là: "Chúng ta có cần AI cho việc đó không?"

Một mô hình cơ sở có thể soạn thảo một khoản chi phí từ biên nhận, với một số câu lệnh. Nhưng một cách hiệu quả hơn để xử lý việc này hoàn toàn không cần đến một mô hình lớn. Sử dụng công nghệ Nhận dạng ký tự quang học (OCR) để phân tích văn bản trong hình ảnh và chuyển văn bản đó đến một mô hình dành riêng cho tác vụ (chẳng hạn như mô hình phân loại văn bản) để xác định các mặt hàng và chi phí trong văn bản đã phân tích. Bạn có thể thực hiện việc này trên thiết bị của người dùng mà không cần gửi bất kỳ dữ liệu nào đến máy chủ.
Trong hầu hết các trường hợp, nếu cho rằng bạn cần một mô hình cơ sở, thì có lẽ bạn cần chia vấn đề thành các nhiệm vụ riêng biệt.
Chọn mô hình phù hợp
Sau khi biết những nhiệm vụ mà bạn đang cố gắng hoàn thành, bạn có thể chọn đúng loại mô hình và mô hình cho công việc. Mặc dù dễ dàng hơn khi sử dụng một mô hình Nền tảng, nhưng các mô hình nhỏ hơn sẽ hoàn thành công việc nhanh hơn và rẻ hơn. Khi hiểu rõ nhiệm vụ của mình, bạn có thể chọn mô hình nhỏ, dành riêng cho nhiệm vụ phù hợp để xử lý công việc.
Có nhiều loại mô hình và mô hình khác nhau, vì vậy, hãy đọc bài viết chuyên sâu về cách chọn mô hình để xác định lựa chọn phù hợp cho dự án của bạn.
Chọn vị trí phù hợp cho mô hình của bạn
Mặc dù các mô hình cơ sở quá lớn để có thể chạy trên cả những máy tính mạnh nhất, nhưng các LLM nhỏ hơn, mô hình ngôn ngữ nhỏ (SLM) và mô hình dành riêng cho từng nhiệm vụ có thể chạy trên nhiều thiết bị.
| Không nên | Không nên | Recommended (Nên dùng) | |
| Mô hình ngôn ngữ nhỏ (SLM) | Recommended (Nên dùng) | Recommended (Nên dùng) | Recommended (Nên dùng) |
| Mô hình nền tảng | Không nên | Không nên | Recommended (Nên dùng) |
SLM rất tiện lợi nhưng không phổ biến. Có hàng tỷ chiếc điện thoại di động và chỉ những mẫu điện thoại mới nhất và đắt tiền hơn mới có khả năng chạy các mô hình ngôn ngữ nhỏ (SLM) cục bộ. Đó chỉ là một phần nhỏ của thị trường.
Hãy sử dụng ma trận này để xác định vị trí phù hợp nhất cho mô hình của bạn:
| Chỉ số | Phía máy khách / Cục bộ | Phía máy chủ / Từ xa |
|---|---|---|
| Khả năng kết nối | Cần có chế độ ngoại tuyến, mạng không ổn định, cơ sở vật chất an toàn | Môi trường luôn kết nối mạng |
| Vị trí dữ liệu | Xử lý ảnh, văn bản nhập và tệp cá nhân của người dùng | Làm việc với các tài liệu, cơ sở dữ liệu phía máy chủ |
| Mẫu sử dụng | Các lệnh gọi có tần suất cao (dịch tin nhắn trò chuyện, phân tích theo thời gian thực) | Các công việc phức tạp không thường xuyên |
| Băng thông | Người dùng thiết bị di động, khu vực nông thôn, đầu ra tệp lớn | Băng thông rộng không giới hạn, phản hồi nhỏ |
| Quyền riêng tư và bảo mật | Dữ liệu thuộc diện quản lý (chăm sóc sức khoẻ, tài chính), tuân thủ nghiêm ngặt | Dữ liệu doanh nghiệp tiêu chuẩn, cơ sở hạ tầng bảo mật đã được thiết lập |
| Ảnh hưởng đến pin | Ứng dụng dành cho máy tính, các trường hợp sử dụng có khả năng chịu tải cao | Ứng dụng di động có pin yếu |
Suy luận phía máy khách, cải tiến tăng dần và kết hợp
Với các thư viện như TensorFlow.js, Transformers.js và ONNX.js, các ứng dụng của bạn có thể thực hiện suy luận phía máy khách bằng dữ liệu người dùng. Bạn chuyển đổi mô hình của mình sang định dạng phù hợp, sau đó lưu trữ từ xa hoặc nhúng trực tiếp vào ứng dụng. Trải nghiệm người dùng tốt nhất là sử dụng sự kết hợp liền mạch giữa các mô hình được tải sẵn, có thể tải xuống và từ xa, để người dùng có thể hoàn thành công việc mà không ảnh hưởng đến hiệu suất.
Ngay cả khi bạn ưu tiên sử dụng một mô hình từ xa, được lưu trữ trên đám mây vì lý do bảo mật (hoặc nhu cầu về kích thước), việc cung cấp đủ các mô hình cục bộ khi mất kết nối có thể mang đến trải nghiệm linh hoạt.
Cuối cùng, có 3 phương pháp triển khai mô hình. Chọn một chế độ phù hợp nhất với nhu cầu của bạn.
- Ưu tiên cục bộ: Ứng dụng có các yêu cầu ngoại tuyến, tần suất sử dụng cao, dữ liệu nhạy cảm.
- Ưu tiên từ xa: Lý luận phức tạp, mô hình lớn, tần suất sử dụng thấp.
- Phương pháp kết hợp: Tải các mô hình nhỏ xuống trong khi sử dụng API, chuyển đổi khi sẵn sàng.
Bước tiếp theo của bạn
Công nghệ thường đi sau việc triển khai. Cách tốt nhất để nhà phát triển tác động đến hướng đi của ngành, nhằm mang lại trải nghiệm tốt hơn cho người dùng và kết quả tốt hơn cho thế giới của chúng ta là:
- Chọn công cụ phù hợp cho công việc. Các mô hình nhỏ hơn tiêu thụ ít tài nguyên hơn và thường hoạt động hiệu quả như các mô hình lớn, nhờ vào kỹ thuật tạo câu lệnh. Chúng có độ trễ thấp.
- Yêu cầu tính minh bạch về chi phí suy luận và huấn luyện. Vận động để công ty của bạn ưu tiên những mô hình công bố các con số này.
- Đặt mô hình gần dữ liệu để giảm chi phí của các chuyến khứ hồi đến một máy chủ.
- Sử dụng những gì đã có. Nếu đã có các mô hình trên thiết bị, hãy ưu tiên những mô hình đó trước.
Tài nguyên
Nếu muốn tìm hiểu sâu hơn về những chủ đề này, bạn có thể tham khảo các tài nguyên sau đây mà tôi đã dùng để viết bài này. Đây là những cuốn sách rất hay.
Hiệu suất và nghiên cứu về mô hình
- Mô hình ngôn ngữ nhỏ là tương lai của AI dựa trên tác nhân (Nghiên cứu của NVIDIA): Hỗ trợ nghiên cứu về các chức năng của SLM
- Kiểm toán tác động môi trường của Mistral: Tính minh bạch về chi phí huấn luyện và suy luận
- Nghiên cứu về chi phí suy luận của Google: Đo lường tác động đến môi trường
- Nghiên cứu về tự nhiên: Tác động của AI so với con người đối với môi trường: Phân tích so sánh về mức độ hoàn thành nhiệm vụ của AI và con người
- Thảo luận về tác động của AI đối với môi trường: Bối cảnh về diễn ngôn môi trường
Công cụ triển khai và phát triển
- Tải mô hình TensorFlow.js: Triển khai mô hình phía máy khách
- Ví dụ về Transformers.js: Suy luận mô hình dựa trên trình duyệt
- Thời gian chạy ONNX.js: Triển khai mô hình trên nhiều nền tảng
- Hướng dẫn về AI kết hợp của Firebase: Tích hợp mô hình cục bộ và từ xa