هوش مصنوعی مولد به استفاده از هوش مصنوعی برای ایجاد محتوای جدید مانند متن، تصاویر، موسیقی، صدا و ویدئو اشاره دارد. هوش مصنوعی مولد برای یادگیری الگوها و روابط موجود در مجموعه داده ای از محتوای ساخته شده توسط انسان به مدل یادگیری ماشینی (ML) متکی است.
این فناوری قابلیت های باورنکردنی را از طریق اپلیکیشن هایی مانند Gemini نشان داده است. ممکن است تعجب کنید که چگونه ابزارهای هوش مصنوعی مولد را در محصولات وب خود پیاده کنم؟
یکی از موارد استفاده رایج این است که به کاربران رابط بهتری برای پرسیدن سوالات در مورد محتوای یک وب سایت ارائه دهیم. با کمک یادگیری ماشینی می توانید نتایج جستجوی کاربر خود را تا حد زیادی بهبود بخشید.
جستجوی بهتر و مختص سایت بسازید
میتوانید یک رابط ایجاد کنید که در آن کاربران سؤال خود را بنویسند، که سپس به یک مدل زبان بزرگ (LLM)، مانند Gemini ارسال میشود و سپس پاسخها را برای کاربران شما نمایش میدهد.
فرض کنید چنین قابلیتی در این سایت وجود داشت. کاربر میخواهد بداند کدام API در Interop 2024 گنجانده شده است، و پرس و جوی زیر را وارد میکند:
What are the features included in Interop 24?
متأسفانه، به چند دلیل، خروجی احتمالاً نادرست خواهد بود:
- کاربر به LLM زمینه کمی برای سوال داده است، بنابراین LLM بیشتر مستعد پاسخ دادن به پاسخ های اشتباه یا توهم است.
- LLM احتمالاً قبل از ایجاد Interop 2024 یا مشخص شدن ویژگیهای آن آموزش دیده است، بنابراین از آن اطلاعات بیاطلاع است.
در حالی که این امکان برای LLM ها وجود دارد که اطلاعات فعلی بیشتری پیدا کنند، مجموعه داده های آموزشی LLM ذاتا قدیمی هستند. حفظ نتایج تازه می تواند فوق العاده وقت گیر و گران باشد.
از مهندسی سریع استفاده کنید
مهندسی سریع مجموعه ای از تکنیک ها برای به دست آوردن بهترین خروجی از یک LLM است.
یک تکنیک این است که زمینه اضافی در اعلان ارائه شود، و باعث میشود LLM بیشتر محتوایی را که به زمینه مرتبط است، خروجی دهد.
در ادامه مثال Interop، اولین قدم ما ارائه محتوای کامل مقاله به عنوان زمینه است. سپس سؤال را به عنوان ورودی برای LLM برای پاسخ اضافه کنید. به عنوان مثال:
Context:
Following on from the success of Interop 2022 and Interop 2023, we
are excited about the opportunity to collaborate once again with
all key browser vendors and other relevant stakeholders...
(trimmed to fit in this article)
Input:
What are the features included in Interop 2024?
می توانید انتظار داشته باشید که Gemini چیزی شبیه به زیر خروجی دهد:
The features included in Interop 24 are Accessibility, CSS Nesting, Custom
Properties, Declarative Shadow DOM, font-size-adjust, HTTPS URLs for
WebSocket, IndexedDB, Layout, Pointer and Mouse Events, Popover, Relative
Color Syntax, requestVideoFrameCallback, Scrollbar Styling, @starting-style
and, transition-behavior, Text Directionality, text-wrap: balance,URL
این پاسخ احتمالاً بسیار بهتر از یک درخواست بدون زمینه است، زیرا پاسخ بر اساس زمینه ارائه شده است.
با RAG مقیاس را افزایش دهید
به عنوان مثال، به جای پاسخ دادن به سؤالی در مورد یک مقاله، می خواهیم LLM به سؤالات بیشتری در مورد web.dev پاسخ دهد و از هر مقاله به عنوان زمینه اضافی استفاده کند. در حالی که این ممکن است برای سایتهای کوچکتر امکانپذیر باشد، با توجه به پنجره زمینهای 1.5 از 1 میلیون توکن ، درخواستهای بزرگتر برای اجرا کندتر و گرانتر هستند.
طول ورودی و خروجی LLM با توکنهایی اندازهگیری و شارژ میشود، که راهی برای نمایش یک توالی مشترک از کاراکترهای موجود در ورودی متن است. تعداد نشانه ها به طور کلی بیشتر از تعداد کلمات خواهد بود. به عنوان مثال ورودی در مثال اول دارای 775 کلمه بود که با 1097 توکن نشان داده می شد. LLM های مختلف ممکن است توکن ها را متفاوت محاسبه کنند و اکثر آنها یک API یا یک نقطه پایانی برای محاسبه تعداد نشانه ها برای ورودی متن ارائه می دهند.
یک راه حل این است که مقاله های مربوط به سریع LLM را ارائه دهید. این وظیفه باید دو بخش باشد:
- هنگام درخواست LLM، محتوای مقالات برتر را به عنوان زمینه اضافه کنید.
- مطالب مربوط به "ویژگی های موجود در Interop 2024 چیست؟" را جستجو کنید.
ما می خواهیم نتایج Gemini بر اساس مقالات زیر محتوا را بازگرداند:
- ماده 1: web.dev/blog/submit-your-proposals-for-interop-2024
- ماده 2: web.dev/blog/interop-2023-wrapup
- ماده 3: web.dev/blog/interop-2024
ورودی باید به صورت زیر باشد:
Context:
Article 1:
Over the past two years... (trimmed)
Article 2:
At the end of last year Interop 2023 wrapped up. This effort... (trimmed)
Article 3:
Following on from the success of Interop 2022... (trimmed)
Input:
What are the features included in Interop 2024?
این زمینه خروجی مورد انتظار ما را تولید می کند.
* Accessibility * CSS Nesting * Custom Properties
* Declarative Shadow DOM * font-size-adjust
* HTTPS URLs for WebSocket * IndexedDB * Layout
* Pointer and Mouse Events * Popover * Relative Color Syntax
* requestVideoFrameCallback * Scrollbar Styling
* @starting-style and transition-behavior * Text Directionality
* text-wrap: balance * URL
برای کسانی که با تکنیکهای هوش مصنوعی آشنا هستند، این رویکرد از RAG استفاده میکند، یک روش معمول برای بهبود احتمال پاسخهای واقعی از ابزارهای مولد هوش مصنوعی.
خروجی را با جستجوی معنایی بهبود بخشید
در حالی که تکنیک RAG می تواند با جستجوی متن کامل معمولی کار کند، این رویکرد دارای کاستی هایی است.
- جستجوی متن کامل به هوش مصنوعی کمک می کند تا مطابقت دقیق کلمات کلیدی را پیدا کند. با این حال، LLM ها قادر به تعیین معنای مورد نظر در پشت پرس و جوی کاربر نیستند. این می تواند منجر به ناقص یا نادرست بودن خروجی ها شود.
- ممکن است مشکلاتی وجود داشته باشد که کلمات دارای چندین معانی هستند یا در جستجوها از مترادف استفاده می شود. به عنوان مثال، "بانک" (موسسه مالی در مقابل ساحل رودخانه) می تواند منجر به نتایج نامربوط شود.
- جستجوی متن کامل ممکن است نتایجی را به دست آورد که اتفاقاً حاوی کلمات کلیدی هستند اما با هدف کاربر مطابقت ندارند.
جستجوی معنایی تکنیکی برای بهبود دقت جستجو با تمرکز بر این جنبههای کلیدی است:
- هدف جستجوگر: سعی می کند دلیل اینکه کاربر در حال جستجو برای چیزی است را بفهمد. آنها در تلاش برای یافتن یا انجام چه چیزی هستند؟
- معنای متنی: کلمات و عبارات را در رابطه با متن اطراف آنها و همچنین عوامل دیگری مانند موقعیت مکانی کاربر یا تاریخچه جستجو تفسیر می کند.
- رابطه بین مفاهیم: جستجوی معنایی از نمودارهای دانش (شبکههای بزرگ موجودیتهای مرتبط) و پردازش زبان طبیعی برای درک نحوه اتصال کلمات و ایدهها استفاده میکند.
در نتیجه، هنگامی که ابزارهایی را با جستجوی معنایی می سازید، خروجی جستجو به جای کلمات کلیدی، بر هدف کلی پرس و جو متکی است. این بدان معنی است که یک ابزار می تواند اسناد مربوطه را تعیین کند، حتی زمانی که کلمه کلیدی دقیقی وجود ندارد. همچنین می تواند از نتایجی که در آن کلمه وجود دارد جلوگیری کند، اما معنای متفاوتی دارد.
در حال حاضر، میتوانید دو ابزار جستجو را پیادهسازی کنید که از جستجوی معنایی استفاده میکنند: Vertex AI Search و Algolia AI Search .
پاسخ ها را از مطالب منتشر شده ترسیم کنید
شما یاد گرفته اید که چگونه از مهندسی سریع استفاده کنید تا یک LLM را قادر سازد تا پاسخ های مرتبط با محتوایی را که هرگز دیده نمی شود با افزودن زمینه به اعلان ارائه دهد. و، شما یاد گرفته اید که چگونه با استفاده از تکنیک Retrieval-Augmented Generation (RAG) این رویکرد را از مقاله های جداگانه به کل مجموعه محتوا تغییر دهید. شما یاد گرفتید که چگونه جستجوی معنایی می تواند نتایج را برای درخواست های جستجوی کاربر بهبود بخشد، و RAG را بهتر در محصول خود پیاده سازی کنید.
این یک مشکل شناخته شده است که ابزارهای هوش مصنوعی مولد می توانند "توهم" کنند، که آنها را در بهترین حالت، گاهی غیرقابل اعتماد، یا در بدترین حالت، برای یک تجارت مضر می کند. با استفاده از این تکنیک ها، هم کاربران و هم توسعه دهندگان می توانند قابلیت اطمینان را بهبود بخشند و شاید اعتماد به خروجی این برنامه ها را ایجاد کنند.