Introducción a los agentes

Publicado: 25 de febrero de 2025

Los desarrolladores web han creado y optimizado sitios web para públicos humanos y no humanos, incluidos los rastreadores y otros bots. Los agentes de IA son los usuarios web más recientes que se benefician de tu optimización.

En esencia, un agente es un sistema que recibe una entrada, la interpreta y, luego, planifica y ejecuta acciones en nombre del usuario (ya sea un humano o algún otro agente). Un agente tiene varios componentes, que pueden incluir modelos, APIs o herramientas.

Existen varias características que definen a los agentes. En el contexto del desarrollo web, debes tener en cuenta lo siguiente:

  • Autónomos: Los agentes pueden operar sin intervención humana directa.
  • Interactivos: Los agentes pueden conversar con otros agentes y con humanos.
  • Reactivo: Un agente percibe su entorno y responde a los cambios.
  • Proactividad: Los agentes pueden tomar la iniciativa para alcanzar objetivos específicos.

Por ejemplo, Librería Ejemplo es una librería en línea. Un usuario podría recopilar recomendaciones para un libro nuevo, según los libros que le gustan y otros intereses, interactuando con un modelo de lenguaje grande (LLM). Un agente podría llevar al usuario a la página del libro recomendado y comenzar el proceso de confirmación de la compra. Si el libro no estaba en stock, el agente podía llevar al usuario a comprar esa recomendación en otra librería en línea.

Como los agentes son usuarios relativamente nuevos en la Web, tienes tiempo antes de que debas adoptar las prácticas recomendadas. Sin embargo, muchas de las prácticas recomendadas para ayudar a los agentes a ayudar a todos los usuarios, en especial crear un sitio web accesible.

En este documento, revisamos cómo operan los agentes como usuarios web y por qué deberías considerar crear tu sitio web teniendo en cuenta a los agentes.

Cómo operan los agentes como usuarios

Gran parte del debate en torno a la IA y los sitios web se centró en los rastreadores que se usan para extraer datos de entrenamiento para los LLM. Los datos recopilados para el entrenamiento suelen mantenerse en conjuntos de datos abiertos, como Common Crawl, lo que ayuda a evitar que los sitios se vean sobrecargados por los rastreadores. Sin embargo, el entrenamiento es solo una de las razones por las que te encontrarás con sistemas de IA.

Los sistemas de IA pueden segmentar páginas específicas para extraer datos, según la solicitud de un usuario específico (ya sea humano o agente). Por ejemplo, un usuario podría proporcionar fuentes a NotebookLM, y el sistema extrae el contenido para ayudar mejor al usuario con tareas relacionadas, como la generación de resúmenes o la agregación de datos.

Los agentes siguen patrones similares y rastrean páginas en nombre del usuario para responder a su solicitud, pero el flujo puede ser menos lineal.

Si bien los agentes se han utilizado durante mucho tiempo para tareas de automatización y recopilación de información, ahora pueden hacer clic en vínculos y botones, completar campos y desplazarse por las páginas, lo que les permite completar flujos de trabajo en nombre de los usuarios. Pueden ser tareas pequeñas, como completar formularios de contacto, o tareas más complejas, como reservar vuelos para tu familia.

Comprender el consentimiento es la habilidad más importante para estos nuevos tipos de agentes, ya que actúan como compañeros de los humanos. Los agentes deben solicitar confirmación en puntos críticos, como un paso de compra o el envío de un formulario con información sensible.

Agentes como compañeros

Los agentes pueden ser compañeros o incluso sustitutos de los usuarios humanos, y ayudar a completar tareas complejas en tu sitio web o aplicación web. En términos generales, el proceso de un agente siempre es el mismo:

  1. Recibe la búsqueda.
  2. Procesa y planifica cómo abordar la consulta.
  3. Ejecuta el plan.
  4. Guarda en la memoria las lecciones aprendidas.

Los agentes son más adecuados para brindar asistencia en tareas de múltiples orígenes. En el caso de la compra de libros, el agente puede completar una tarea en tu origen y, al mismo tiempo, navegar por otros orígenes similares. Cuanto mejor sea tu sitio para ayudar a un agente a completar la tarea, más probable será que el agente la complete con tu origen.

Tu trabajo como desarrollador web es brindar asistencia y crear herramientas para ayudar a los humanos y a los agentes a completar tareas críticas de manera eficiente. Sin embargo, las herramientas son solo una parte de la infraestructura del agente.

Infraestructura de agentes

Los humanos cooperan con los agentes. Cada parte envía y devuelve información al modelo.
Una persona trabaja con un agente que contiene un modelo, reglas, memoria y herramientas.

Un agente es una unidad contenida con varias partes conectadas:

  • Modelo: Los modelos de lenguaje grandes (LLM) son la base de un agente de IA. Proporcionan razonamiento, una base de conocimiento y la capacidad de procesar y generar lenguaje.
  • Reglas: Varias restricciones, como un arquetipo, instrucciones y objetivos, ayudan al agente a realizar tareas de manera coherente.
  • Memoria: La memoria a corto y largo plazo ayuda a un agente a administrar el contexto, ganar eficiencia y, en general, desempeñarse mejor para el usuario.
  • Herramientas: Hay muchas herramientas diferentes que un agente podría usar, incluidas APIs, funciones, bases de datos y hasta otros agentes. Por ejemplo, WebMCP es una propuesta del programa de versión preliminar anticipada de Chrome para admitir interacciones estructuradas en tu sitio web.

Cuando los agentes tratan los sitios web como fuentes de datos o interactúan directamente con las páginas, pueden hacerlo de forma visual o semántica:

  • Interacción visual: El agente toma una instantánea de la página web renderizada. Utiliza un modelo de visión para leer el contenido e identificar elementos interactivos.
  • Interacción semántica: El agente analiza el DOM y lee el texto directamente. Esto es particularmente común en los agentes que realizan tareas automatizadas.

Tanto para las interacciones visuales como para las semánticas, los agentes se benefician de los sitios que están bien diseñados, son intuitivos para navegar y tienen una jerarquía de contenido clara.

Los agentes requieren acceso a los datos

Una forma de definir los agentes es por su relación con los datos. ¿El propietario del agente y los datos es el mismo o diferente? Esta elección determina qué capas de autenticación se necesitan y qué tan difícil es completar la tarea.

Agente de terceros

Un agente de terceros es un agente basado en el navegador o en el sistema operativo que actúa en un contexto local con datos locales. Dado que los navegadores y los sistemas operativos almacenan preferencias personalizadas del usuario que podrían considerarse información de identificación personal (PII), un agente de terceros puede evitar operaciones que compartan estos datos con otras partes.

Agente interno

Un agente de origen es cuando la herramienta y la información son propiedad de la misma parte, por lo que los desarrolladores pueden ser propietarios de las herramientas y brindar asistencia para ellas, administrar el acceso a la información y la configuración.

Por ejemplo, supongamos que eres un usuario que planea unas vacaciones en Toronto y quieres crear una lista de lugares para visitar. Un agente proporcionado por Google Maps podría tomar un conjunto de criterios y datos para generar una lista de puntos de interés en tu nombre, y marcar cada elemento en el mapa. Se podría considerar un agente de origen, ya que Google proporciona el agente y también posee los datos del mapa y cualquier otra preferencia personal almacenada por un usuario que accedió a su cuenta.

Agente externo

Un agente externo es creado por un desarrollador o una organización externos, y ofrece funciones y datos de servicios externos. Por ejemplo, es posible que quieras que un proveedor de calendarios externo admita una función basada en eventos en tu sitio web. Podrías ofrecer herramientas a estos agentes, como WebMCP, o integrarlos en tus flujos de trabajo (suponiendo que superen tu revisión de privacidad).

Un agente externo podría completar la misma tarea de asignación si se crea como una extensión.

Los desarrolladores podrían crear un agente que se base en fuentes específicas para crear listas, como capturar los mejores restaurantes de los periódicos locales. Este agente necesitaría acceso de lectura a los sitios de periódicos locales, además de acceso de lectura y escritura a una herramienta de creación de listas, ya sea Google Maps o un servicio alternativo. Esto requiere varias capas de consentimiento y permisos, así como herramientas específicas para interactuar con los sitios (como una herramienta de Playwright).

Es probable que tu sitio web o aplicación web sea un proveedor de información externo para un agente. En este caso, es posible que desees ofrecer una estructura de permisos que permita que los agentes y los humanos completen tareas contigo.

Conclusiones

Ahora que comprendes cómo funcionan los agentes, puedes decidir cómo tu sitio web puede brindarles el mejor soporte.

  • Lee sobre WebMCP y participa en el programa de versión preliminar anticipada.
  • Obtén más información para crear un sitio web accesible.
  • Realiza el curso Learn AI para comprender cómo se pueden agregar sistemas de IA a tus sitios.

Seguiremos actualizando esta serie con prácticas recomendadas prácticas para respaldar las interacciones de tu sitio web y aplicación web con los agentes.