Gracias por seguir Google I/O. Mira contenido a pedido.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Crea sitios web aptos para agentes

Kasper Kulikowski

Omkar More

Tu sitio web tiene un nuevo tipo de visitante. Algunos usuarios humanos están pasando de la navegación manual a delegar viajes orientados a objetivos en agentes de IA. Estos sistemas autónomos pueden interpretar entradas, planificar y ejecutar acciones en nombre de un usuario.

Sin embargo, muchos de nuestros sitios web están diseñados para ser atractivos para los humanos, con estados de desplazamiento complejos, diseños cambiantes y movimiento fluido. Esta función no funciona para los agentes.

Cómo ven los agentes tu sitio

Los agentes no miran tu sitio web en un monitor. Operan en una representación de tu sitio legible por máquinas. La calidad de esta representación determina su rendimiento.

Los agentes pueden ver tu sitio web de 3 maneras principales: capturas de pantalla, código HTML sin procesar y el árbol de accesibilidad.

Capturas de pantalla

El agente toma una instantánea de la página renderizada y usa un modelo de visión para identificar elementos. Según la captura de pantalla, el agente puede reconocer que una barra de búsqueda en la parte superior derecha es una búsqueda global, mientras que un cuadro en el medio probablemente sea un campo de formulario. Las pistas visuales pueden ser útiles, ya que los agentes pueden usar el color, el tamaño y la proximidad para determinar la importancia. Es probable que un botón grande de Borrar se interprete con más precaución que un vínculo pequeño de “Ayuda”. Sin embargo, analizar capturas de pantalla puede ser lento y costoso (en términos de tokens utilizados), por lo que es mejor usarlo como respaldo cuando la estructura es confusa.

HTML

El agente analiza el DOM y lee el código HTML. Comprende cómo se anidan los elementos, la jerarquía lógica del árbol del DOM, los atributos como los IDs y las clases que definen la estructura, y las cadenas de datos sin procesar que forman la columna vertebral informativa del sitio. Esto ayuda al agente a comprender la relación entre los elementos. Si hay un botón de “Comprar ahora” dentro de un contenedor de productos, el agente supone que ese botón pertenece a ese producto específico.

Árbol de accesibilidad

El árbol de accesibilidad es una API nativa del navegador que destila el DOM en lo más importante: roles, nombres y estados de los elementos interactivos. Es el resumen semántico de la página, que utiliza la tecnología de accesibilidad. Para un agente de IA, funciona como un mapa de alta fidelidad que ignora el "ruido" visual de CSS para enfocarse en la utilidad pura. Al interpretar este árbol, un agente puede aprender la intención funcional de cada botón de activación, control deslizante y campo de entrada.

Modalidades combinadas

Depender de una sola entrada crea una brecha semántica. Por ejemplo, en el DOM, un agente podría ver un <div> sin saber que, en realidad, lo configuraste como un botón funcional con CSS y JavaScript. Con las capturas de pantalla, es posible que un agente identifique dónde se encuentra ese botón en la pantalla, pero aún no conoce el destino previsto del botón ni la acción que está diseñado para activar.

Por lo tanto, los agentes modernos combinan varias modalidades. Usan el DOM y el árbol de accesibilidad para obtener una lista limpia y estructurada de los elementos interactivos, y, luego, la comparan con una renderización visual para comprender el diseño, la agrupación y las indicaciones visuales.

Nuestro trabajo es proporcionar indicadores limpios en todos estos canales.