AI o odpowiednich rozmiarach: korzystna dla firm, użytkowników i planety

Data publikacji: 10 listopada 2025 r.

Podczas tworzenia witryn i aplikacji internetowych z wykorzystaniem AI możesz najpierw opracować prototyp z użyciem dużego modelu językowego (LLM), takiego jak ChatGPT, Gemini lub Claude, a potem wdrożyć go w środowisku produkcyjnym. LLM to rodzaj modelu podstawowego, czyli bardzo dużego, wstępnie wytrenowanego modelu, który jest zasobożerny, drogi i często nie jest najlepszym narzędziem do wykonania danego zadania. Mniejsze, lokalne modele specyficzne dla konkretnego zadania zużywają mniej zasobów i często zapewniają lepsze i szybsze odpowiedzi przy niższych kosztach niż modele podstawowe typu „jeden rozmiar dla wszystkich”.

Wybierając lepszy model, wybierasz bardziej zrównoważone podejście, które nazywamy odpowiednio dopasowaną AI. Odpowiednio dopasowana sztuczna inteligencja zapewnia:

  • Krótszy czas oczekiwania dla użytkowników, gdy modele działają lokalnie, zamiast wysyłać dane do odległych serwerów i z nich odbierać.
  • Niższe koszty interfejsu API, ponieważ nie płacisz za nieużywane funkcje.
  • Dostęp do aplikacji w trybie offline do modeli po stronie klienta na urządzeniu, co zapewnia większą niezawodność.

Modele podstawowe doskonale sprawdzają się w ogólnym rozumowaniu i konwersacji, ale używanie ich do konkretnych zadań (takich jak klasyfikacja tekstu czy wyodrębnianie danych) jest jak używanie bolidu Formuły 1 do pojechania do McDonald's. Jest to technicznie możliwe, ale bardzo nieefektywne (i niewygodne dla pasażerów). Zamiast tego dopasuj implementację do swoich rzeczywistych potrzeb.

Zrównoważone praktyki związane z AI i optymalne wrażenia użytkowników nie są sprzecznymi priorytetami. To ten sam priorytet, tylko wyrażony w inny sposób.

Jednym ze sposobów oceny wpływu AI na środowisko jest:

  • Trenowanie: początkowe trenowanie modelu wymaga znacznych zasobów. Tą optymalizacją i „uczeniem się” zarządza dostawca modelu.
  • Wnioskowanie: wnioskowanie wykonujesz, gdy dostarczasz wytrenowanemu modelowi nowe dane wejściowe (prompt), aby wygenerować dane wyjściowe (tekst odpowiedzi). W porównaniu z trenowaniem wnioskowanie zużywa znacznie mniej zasobów.

Trenowanie to koszt stały, ale koszt wnioskowania zależy od wykorzystania, co sprawia, że wybór modelu jest kluczowym czynnikiem, na który masz wpływ. Możesz podejmować świadome decyzje dotyczące swojego przypadku użycia i dbania o planetę, wspierając odpowiedzialny rozwój AI.

Wdrażanie AI z myślą o użytkownikach

Zamiast tworzyć AI, która stawia na pierwszym miejscu model, twórz AI, która stawia na pierwszym miejscu użytkownika. Zastanów się, jakie zadania mogłaby wykonywać AI, aby ułatwić korzystanie z aplikacji lub zmniejszyć obciążenie użytkowników pracą albo liczbę zmian kontekstu, których muszą dokonywać.

Załóżmy, że prowadzisz firmę Rewarding Eats, która przyznaje użytkownikom punkty za jedzenie w określonych restauracjach. Możesz użyć AI do skanowania zdjęcia paragonu w celu odczytania nazwy restauracji i całkowitej kwoty wydatków, zamiast wymagać od klientów ręcznego wpisywania tych informacji. Ta funkcja prawdopodobnie poprawi wrażenia użytkowników Twojej aplikacji.

Podczas tworzenia AI z myślą o użytkownikach:

  1. Określ wymagania dotyczące zadania. Jakie zadania ma wykonywać AI? Czy są oparte wyłącznie na tekście, czy zawierają elementy audio lub wizualne?
  2. Wybierz odpowiedni model. Różne modele są bardziej wydajne w przypadku różnych zadań i często mają mniejsze rozmiary.
  3. Poznaj ograniczenia wdrożenia Gdzie model powinien być przechowywany? Gdzie będą się znajdować dane? Czy użytkownik będzie mieć stabilne połączenie?
  4. Wdróż ulepszanie progresywne, aby zapewnić użytkownikom najszybsze i najbezpieczniejsze działanie.

Określ wymagania dotyczące zadania

Zamiast szukać „miejsc, w których można używać AI” lub „funkcji AI do dodania”, zadaj sobie pytanie: „Jak wyglądałoby bezproblemowe korzystanie z usługi?”. W zależności od wielkości firmy należy porozmawiać o tym z menedżerami produktu.

Weźmy na przykład aplikację Rewarding Eats. Pierwsze pytanie, które należy sobie zadać, to: „Czy potrzebujemy do tego AI?”.

Model podstawowy może na podstawie paragonu przygotować projekt wydatku, jeśli otrzyma odpowiednie instrukcje. Bardziej efektywny sposób radzenia sobie z tym problemem nie wymaga jednak dużego modelu. Użyj optycznego rozpoznawania znaków (OCR), aby przeanalizować tekst z obrazu i przekazać go do modelu przeznaczonego do konkretnego zadania, np. modelu klasyfikacji tekstu, aby zidentyfikować elementy i koszty na podstawie przeanalizowanego tekstu. Można to zrobić na urządzeniu użytkownika bez wysyłania danych na serwery.

W większości przypadków, jeśli uważasz, że potrzebujesz modelu podstawowego, prawdopodobnie musisz podzielić problem na osobne zadania.

Wybierz odpowiedni model

Gdy już wiesz, jakie zadania chcesz wykonać, możesz wybrać odpowiedni typ modelu i model. Chociaż łatwiej jest sięgnąć po model Foundation, mniejsze modele wykonują zadanie szybciej i taniej. Gdy zrozumiesz swoje zadanie, możesz wybrać odpowiedni mały model przeznaczony do konkretnych zadań, który wykona pracę.

Dostępnych jest wiele różnych typów i modeli, więc zapoznaj się z szczegółowym omówieniem wyboru modeli, aby określić, który z nich będzie odpowiedni dla Twojego projektu.

Wybieranie odpowiedniej lokalizacji dla modelu

Modele podstawowe są zbyt duże, aby można było je uruchamiać nawet na najwydajniejszych komputerach stacjonarnych, ale mniejsze LLM, małe modele językowe (SLM) i modele specyficzne dla konkretnego zadania można uruchamiać na wielu urządzeniach.

Niezalecane Niezalecane Zalecane
Mały model językowy (SLM) Zalecane Zalecane Zalecane
Modele podstawowe Niezalecane Niezalecane Zalecane

SLM są wygodne, ale rzadko stosowane. Istnieją miliardy telefonów komórkowych, ale tylko najnowsze i droższe modele są w stanie uruchamiać lokalne modele SLM. To niewielki odsetek rynku.

Aby określić najlepszą lokalizację dla modelu, skorzystaj z tej macierzy:

Dane Po stronie klienta / lokalnie Po stronie serwera / zdalnie
Połączenia Tryb offline, niestabilne sieci, zabezpieczone obiekty Środowiska zawsze online
Lokalizacja danych Przetwarzanie zdjęć użytkownika, wpisywanego tekstu i plików osobistych Praca z dokumentami i bazami danych po stronie serwera
Wzorzec użytkowania Połączenia o wysokiej częstotliwości (tłumaczenie na czacie, analiza w czasie rzeczywistym) Okazjonalne złożone zadania
Przepustowość Użytkownicy urządzeń mobilnych, obszary wiejskie, duże pliki wyjściowe Nieograniczony dostęp do internetu szerokopasmowego, krótkie odpowiedzi
Prywatność i bezpieczeństwo Dane podlegające regulacjom (zdrowie, finanse), ścisła zgodność Standardowe dane firmy, sprawdzona infrastruktura zabezpieczeń
Wpływ na baterię Aplikacje na komputery, przypadki użycia wymagające większej mocy Aplikacje mobilne przy ograniczonym poziomie baterii

Wnioskowanie po stronie klienta, stopniowe ulepszanie i hybrydowe

Dzięki bibliotekom takim jak TensorFlow.js, Transformers.js i ONNX.js aplikacje mogą przeprowadzać wnioskowanie po stronie klienta na podstawie danych użytkownika. Model przekształcasz w odpowiedni format, a następnie hostujesz go zdalnie lub osadzasz bezpośrednio w aplikacji. Najlepsze wrażenia użytkownika zapewnia płynne połączenie wstępnie załadowanych, pobieranych i zdalnych modeli, dzięki czemu użytkownicy mogą pracować bez kompromisów.

Nawet jeśli ze względów bezpieczeństwa (lub ze względu na rozmiar) preferowane jest używanie zdalnego modelu hostowanego w chmurze, udostępnienie wystarczającej liczby modeli lokalnych w przypadku utraty połączenia może zapewnić elastyczność.

Istnieją 3 sposoby wdrażania modelu. Wybierz ten, który najlepiej odpowiada Twoim potrzebom.

  • Aplikacja działająca w trybie offline: aplikacja ma wymagania dotyczące działania w trybie offline, jest często używana i przetwarza dane wrażliwe.
  • Zdalne: złożone wnioskowanie, duże modele, rzadkie użycie.
  • Podejście hybrydowe: pobieraj małe modele podczas korzystania z interfejsów API i przełączaj się na nie, gdy będą gotowe.

Co musisz zrobić

Technologia często jest wdrażana po implementacji. Najlepszym sposobem, w jaki deweloperzy mogą wpływać na kierunek rozwoju branży, aby zapewnić użytkownikom lepsze wrażenia i osiągać lepsze wyniki, jest:

  • Wybierz odpowiednie narzędzie. Mniejsze modele zużywają mniej zasobów i często działają równie dobrze jak duże modele dzięki inżynierii promptów. Mają mniejsze opóźnienia.
  • Wymagaj przejrzystości kosztów wnioskowania i trenowania. Zachęcaj swoją firmę do priorytetowego traktowania modeli, które ujawniają te liczby.
  • Umieść model blisko danych, aby zmniejszyć koszt podróży w obie strony do serwera.
  • Skorzystaj z tego, co jest już dostępne. Jeśli na urządzeniu są już modele, najpierw użyj tych modeli.

Zasoby

Jeśli chcesz dowiedzieć się więcej na te tematy, skorzystaj z tych źródeł, które posłużyły mi do napisania tego artykułu. Świetnie się je czyta.

Wydajność modelu i badania

Narzędzia do wdrażania i programowania