पब्लिश करने की तारीख: 25 फ़रवरी, 2025
वेब डेवलपर, इंसानों और इंसानों के अलावा अन्य ऑडियंस के लिए वेबसाइटें बनाते और उन्हें ऑप्टिमाइज़ करते हैं. इनमें क्रॉलर और अन्य बॉट शामिल हैं. एआई एजेंट, वेब का इस्तेमाल करने वाले ऐसे नए उपयोगकर्ता हैं जिन्हें आपके ऑप्टिमाइज़ेशन से फ़ायदा मिलता है.
एजेंट एक ऐसा सिस्टम होता है जो इनपुट लेता है, उसका मतलब समझता है, और फिर उपयोगकर्ता (चाहे वह कोई व्यक्ति हो या कोई दूसरा एजेंट) की ओर से कार्रवाइयां प्लान करता है और उन्हें पूरा करता है. किसी एजेंट में कई कॉम्पोनेंट होते हैं. इनमें मॉडल, एपीआई या अन्य टूल शामिल हो सकते हैं.
एजेंट की कई विशेषताएं होती हैं. वेब डेवलपमेंट के संदर्भ में, आपको इन बातों पर ध्यान देना चाहिए:
- ऑटोनॉमस: एजेंट, सीधे तौर पर इंसान के दखल के बिना काम कर सकते हैं.
- इंटरैक्टिव: एजेंट, दूसरे एजेंट और इंसानों से बातचीत कर सकते हैं.
- प्रतिक्रियात्मक: कोई एजेंट अपने आस-पास के माहौल को समझता है और उसमें होने वाले बदलावों के हिसाब से प्रतिक्रिया देता है.
- पहले से कार्रवाई करने की सुविधा: एजेंट, खास लक्ष्यों को पूरा करने के लिए पहले से कार्रवाई कर सकते हैं.
उदाहरण के लिए, Example Bookshop एक ऑनलाइन बुकस्टोर है. कोई उपयोगकर्ता, लार्ज लैंग्वेज मॉडल (एलएलएम) से बातचीत करके, अपनी पसंद और अन्य दिलचस्पी के आधार पर नई किताब के सुझाव पा सकता है. एजेंट, उपयोगकर्ता को सुझाई गई किताब के पेज पर ले जा सकता है और चेकआउट की प्रोसेस शुरू कर सकता है. अगर किताब स्टॉक में नहीं थी, तो एजेंट, उपयोगकर्ता को किसी अन्य ऑनलाइन बुकस्टोर पर ले जा सकता है, ताकि वह वहां से किताब खरीद सके.
एजेंट, वेब पर नए उपयोगकर्ता हैं. इसलिए, आपको सबसे सही तरीके अपनाने से पहले कुछ समय मिलता है. हालांकि, एजेंटों की मदद करने के लिए कई सबसे सही तरीके, सभी उपयोगकर्ताओं के लिए मददगार होते हैं. खास तौर पर, ऐसी वेबसाइट बनाना जिसे आसानी से ऐक्सेस किया जा सके.
इस दस्तावेज़ में, हमने बताया है कि एजेंट, वेब उपयोगकर्ताओं के तौर पर कैसे काम करते हैं. साथ ही, यह भी बताया है कि आपको अपनी वेबसाइट को एजेंट को ध्यान में रखकर क्यों बनाना चाहिए.
एजेंट, उपयोगकर्ताओं के तौर पर कैसे काम करते हैं
एआई और वेबसाइटों के बारे में ज़्यादातर चर्चा, एलएलएम के लिए ट्रेनिंग डेटा स्क्रैप करने वाले क्रॉलर के बारे में हुई है. ट्रेनिंग के लिए स्क्रैप किए गए डेटा को अक्सर Common Crawl जैसे ओपन डेटासेट में रखा जाता है. इससे साइटों को क्रॉलर से ज़्यादा डेटा स्क्रैप करने से रोकने में मदद मिलती है. हालांकि, एआई सिस्टम का इस्तेमाल सिर्फ़ ट्रेनिंग के लिए नहीं किया जाता.
एआई सिस्टम, किसी उपयोगकर्ता के अनुरोध के आधार पर, स्क्रैप करने के लिए खास पेजों को टारगेट कर सकते हैं. यह अनुरोध किसी व्यक्ति या एजेंट का हो सकता है. उदाहरण के लिए, कोई व्यक्ति NotebookLM को सोर्स दे सकता है. इसके बाद, सिस्टम उस सोर्स से कॉन्टेंट इकट्ठा करता है, ताकि व्यक्ति को उससे जुड़े टास्क पूरे करने में मदद मिल सके. जैसे, खास जानकारी देना या डेटा इकट्ठा करना.
एजेंट, एक जैसे पैटर्न को फ़ॉलो करते हैं और उपयोगकर्ता की ओर से पेजों को क्रॉल करते हैं, ताकि उपयोगकर्ता के अनुरोध का जवाब दिया जा सके. हालांकि, फ़्लो कम लीनियर हो सकता है.
एजेंट का इस्तेमाल लंबे समय से, ऑटोमेशन टास्क और जानकारी इकट्ठा करने के लिए किया जा रहा है. हालांकि, अब वे लिंक और बटन पर क्लिक कर सकते हैं, फ़ील्ड भर सकते हैं, और पेजों पर स्क्रोल कर सकते हैं. साथ ही, उपयोगकर्ताओं की ओर से वर्कफ़्लो पूरे कर सकते हैं. ये छोटे-मोटे टास्क हो सकते हैं, जैसे कि संपर्क फ़ॉर्म भरना. इसके अलावा, ये ज़्यादा मुश्किल टास्क भी हो सकते हैं, जैसे कि अपने परिवार के लिए फ़्लाइट बुक करना.
इन नए तरह के एजेंट के लिए, सहमति को समझना सबसे ज़रूरी कौशल है, क्योंकि ये इंसानों के साथ काम करते हैं. एजेंट को अहम चरणों में पुष्टि करने के लिए कहना चाहिए. जैसे, खरीदारी के चरण में या संवेदनशील जानकारी वाला फ़ॉर्म सबमिट करते समय.
एजेंट को साथी के तौर पर इस्तेमाल करना
एजेंट, इंसानों के लिए कंपैनियन या सरोगेट के तौर पर काम कर सकते हैं. ये आपकी वेबसाइट या वेब ऐप्लिकेशन पर मुश्किल टास्क पूरा करने में मदद करते हैं. बड़े लेवल पर, एजेंट की प्रोसेस हमेशा एक जैसी होती है:
- क्वेरी मिलती है.
- क्वेरी को हल करने के तरीके पर काम करना और प्लान बनाना.
- प्लान लागू करें.
- सीखे गए किसी भी सबक को याददाश्त में सेव करें.
एजेंट, कई ओरिजन से जुड़े टास्क को पूरा करने के लिए सबसे सही होते हैं. किताबों की खरीदारी के मामले में, ऐसा हो सकता है कि एजेंट आपके ऑरिजिन पर कोई टास्क पूरा कर रहा हो. साथ ही, वह इसी तरह के अन्य ऑरिजिन पर भी नेविगेट कर रहा हो. अगर आपकी साइट, एजेंट को टास्क पूरा करने में बेहतर तरीके से मदद करती है, तो इस बात की संभावना ज़्यादा होती है कि एजेंट आपके ऑरिजिन का इस्तेमाल करके टास्क पूरा करेगा.
वेब डेवलपर के तौर पर, आपका काम ऐसे टूल बनाना और उन्हें बेहतर बनाना है जिनसे लोगों और एजेंट को ज़रूरी काम आसानी से पूरे करने में मदद मिल सके. हालांकि, टूल एजेंट इन्फ़्रास्ट्रक्चर का सिर्फ़ एक हिस्सा हैं.
एजेंट इन्फ़्रास्ट्रक्चर
एजेंट एक ऐसी यूनिट होती है जिसमें कई कनेक्टेड कॉम्पोनेंट होते हैं:
- मॉडल: लार्ज लैंग्वेज मॉडल (एलएलएम), एआई एजेंट के लिए बुनियादी मॉडल होते हैं. ये तर्क देते हैं, जानकारी का आधार देते हैं, और भाषा को प्रोसेस करने और जनरेट करने की क्षमता देते हैं.
- नियम: अलग-अलग तरह की पाबंदियां, जैसे कि पर्सोना, निर्देश, और लक्ष्य, एजेंट को लगातार टास्क पूरे करने में मदद करते हैं.
- मेमोरी: शॉर्ट-टर्म मेमोरी और लॉन्ग-टर्म मेमोरी की मदद से, एजेंट को कॉन्टेक्स्ट मैनेज करने, ज़्यादा असरदार तरीके से काम करने, और उपयोगकर्ता के लिए बेहतर परफ़ॉर्म करने में मदद मिलती है.
- टूल: कोई एजेंट कई तरह के टूल इस्तेमाल कर सकता है. इनमें एपीआई, फ़ंक्शन, डेटाबेस, और यहां तक कि अन्य एजेंट भी शामिल हैं. उदाहरण के लिए, WebMCP, Chrome के अर्ली प्रीव्यू प्रोग्राम में एक सुझाव है. इससे आपकी वेबसाइट पर स्ट्रक्चर्ड इंटरैक्शन को सपोर्ट किया जा सकता है.
जब एजेंट, वेबसाइटों को डेटा सोर्स के तौर पर इस्तेमाल करते हैं या सीधे पेजों के साथ इंटरैक्ट करते हैं, तो वे ऐसा विज़ुअल या सिमैंटिक तरीके से कर सकते हैं:
- विज़ुअल इंटरैक्शन: एजेंट, रेंडर किए गए वेब पेज का स्नैपशॉट लेता है. यह कॉन्टेंट को पढ़ने और इंटरैक्टिव एलिमेंट की पहचान करने के लिए, विज़न मॉडल का इस्तेमाल करता है.
- सिमेंटिक इंटरैक्शन: एजेंट, DOM का विश्लेषण करता है और सीधे तौर पर टेक्स्ट पढ़ता है. यह समस्या, खास तौर पर अपने-आप होने वाले टास्क करने वाले एजेंट के साथ होती है.
विज़ुअल और सिमैंटिक, दोनों तरह के इंटरैक्शन के लिए, एजेंट को ऐसी साइटों से फ़ायदा मिलता है जिन्हें अच्छी तरह से डिज़ाइन किया गया हो, नेविगेट करने में आसान हो, और जिनमें कॉन्टेंट को साफ़ तौर पर क्रम में लगाया गया हो.
एजेंट को डेटा का ऐक्सेस चाहिए
एजेंट को डेटा के साथ उसके संबंध के आधार पर तय किया जा सकता है. क्या एजेंट और डेटा के मालिक एक ही हैं या अलग-अलग? इस विकल्प से यह तय होता है कि पुष्टि की कितनी लेयर ज़रूरी हैं और टास्क को पूरा करना कितना मुश्किल है.
ज़ीरो-पार्टी एजेंट
ज़ीरो-पार्टी एजेंट, ब्राउज़र या ऑपरेटिंग सिस्टम पर आधारित होता है. यह स्थानीय डेटा का इस्तेमाल करके, स्थानीय कॉन्टेक्स्ट में काम करता है. ब्राउज़र और ऑपरेटिंग सिस्टम, उपयोगकर्ता की पसंद के मुताबिक सेटिंग सेव करते हैं. इन्हें व्यक्तिगत पहचान से जुड़ी जानकारी (पीआईआई) माना जा सकता है. ज़ीरो-पार्टी एजेंट, ऐसी कार्रवाइयों को रोक सकता है जो इस डेटा को अन्य पक्षों के साथ शेयर करती हैं.
पहले पक्ष का एजेंट
पहले पक्ष का एजेंट तब होता है, जब टूल और जानकारी का मालिकाना हक एक ही पार्टी के पास होता है. इससे डेवलपर, टूल का मालिकाना हक रख सकते हैं और उन्हें सपोर्ट कर सकते हैं. साथ ही, जानकारी और कॉन्फ़िगरेशन के ऐक्सेस को मैनेज कर सकते हैं.
उदाहरण के लिए, मान लें कि आप एक उपयोगकर्ता हैं और आपको टोरंटो में छुट्टियां बितानी हैं. साथ ही, आपको वहां घूमने की जगहों की सूची बनानी है. Google Maps की ओर से उपलब्ध कराया गया एजेंट, कुछ शर्तों और डेटा के आधार पर आपकी ओर से दिलचस्पी वाली जगहों की सूची जनरेट कर सकता है. साथ ही, मैप पर हर आइटम को मार्क कर सकता है. इसे पहले पक्ष का एजेंट माना जा सकता है, क्योंकि इसे Google ने उपलब्ध कराया है. Google के पास मैप का डेटा और लॉग-इन किए हुए उपयोगकर्ता की सेव की गई अन्य निजी प्राथमिकताएं भी होती हैं.
तीसरे पक्ष का एजेंट
तीसरे पक्ष के एजेंट को बाहरी डेवलपर या संगठन बनाता है. यह बाहरी सेवाओं से फ़ंक्शन और डेटा उपलब्ध कराता है. उदाहरण के लिए, ऐसा हो सकता है कि आपको किसी तीसरे पक्ष की कैलेंडर सेवा देने वाली कंपनी से, अपनी वेबसाइट पर इवेंट से जुड़ी सुविधा को चालू करने में मदद चाहिए. इन एजेंट को WebMCP जैसे टूल ऑफ़र किए जा सकते हैं. इसके अलावा, एजेंट को अपने वर्कफ़्लो में इंटिग्रेट किया जा सकता है. हालांकि, ऐसा तब ही किया जा सकता है, जब वे निजता से जुड़ी आपकी समीक्षा पास कर लें.
एक्सटेंशन के तौर पर बनाए जाने पर, कोई तीसरा पक्ष भी मैपिंग का यही काम कर सकता है.
डेवलपर, ऐसा एजेंट बना सकते हैं जो सूचियां बनाने के लिए कुछ खास सोर्स पर निर्भर करता हो. जैसे, स्थानीय अखबारों से सबसे अच्छे रेस्टोरेंट की जानकारी इकट्ठा करना. इस एजेंट को स्थानीय समाचार पत्र की साइटों को पढ़ने का ऐक्सेस चाहिए होगा. इसके अलावा, उसे सूची बनाने वाले टूल पर पढ़ने और लिखने का ऐक्सेस भी चाहिए होगा. यह टूल, Google Maps या कोई अन्य सेवा हो सकती है. इसके लिए, सहमति और अनुमतियों की कई लेयर की ज़रूरत होती है. साथ ही, साइटों के साथ इंटरैक्ट करने के लिए कुछ खास टूल (जैसे, Playwright टूल) की भी ज़रूरत होती है.
ऐसा हो सकता है कि आपकी वेबसाइट या वेब ऐप्लिकेशन, एजेंट को तीसरे पक्ष से जानकारी उपलब्ध कराता हो. ऐसे में, आपको अनुमति देने का ऐसा स्ट्रक्चर बनाना चाहिए जिससे एजेंट और इंसान, आपके साथ मिलकर टास्क पूरे कर सकें.
सीखने वाली अहम बातें
अब जब आपको यह समझ आ गया है कि एजेंट कैसे काम करते हैं, तो यह तय किया जा सकता है कि आपकी वेबसाइट उन्हें सबसे अच्छी तरह से कैसे मदद कर सकती है.
- WebMCP के बारे में पढ़ें और अर्ली प्रीव्यू प्रोग्राम में हिस्सा लें.
- ऐसी वेबसाइट बनाने का तरीका जानें जिसे आसानी से ऐक्सेस किया जा सके.
- एआई सिस्टम को अपनी साइटों में जोड़ने का तरीका जानने के लिए, एआई के बारे में जानें कोर्स करें.
हम इस सीरीज़ को अपडेट करते रहेंगे. इसमें, एजेंट के साथ आपकी वेबसाइट और वेब ऐप्लिकेशन के इंटरैक्शन को बेहतर बनाने के लिए, सबसे सही तरीके बताए जाएंगे.