News

Sólo el 4% de los sitios web están listos para agentes de IA: datos de Cloudflare, OAI-AdsBot, y el afeitado Robots.txt (abril 2026)

Cloudflare Agent Readiness Score revela sólo el 4% de los dominios superiores de 200K declaran preferencias de uso de AI. OpenAI añade OAI-AdsBot sin rangos IP publicados, y Google audita directivas robots.txt sin soporte. Esto es lo que los equipos técnicos de SEO necesitan hacer esta semana.

Francisco Leon de Vivero
Sólo el 4% de los sitios web están listos para agentes de IA: datos de Cloudflare, OAI-AdsBot, y el afeitado Robots.txt (abril 2026)
25 de abril, 2026 — SEO Daily Briefing

Sólo el 4% de los sitios web están listos para agentes de IA: Cloudflare Data Exposes a Massive Readiness Gap

Cloudflare analizó 200,000 dominios superiores. OpenAI lanzó un nuevo rastreador de validación. Google está repensando la documentación de robots.txt. La relación de la web con los bots AI está siendo reescrita, y la mayoría de los sitios no se mantienen.

Key Takeaways

Key stats on AI agent web readiness
  • Cloudflare Agent Readiness sólo 4% de los principales dominios 200K declaran preferencias de uso AI
  • Menos 15 sitios en el conjunto de datos de Cloudflare tienen tarjetas de servidor MCP o catálogos de API
  • El nuevo OpenAI OAI-AdsBot gates ChatGPT ad landing pages — pero no tiene rangos IP publicados todavía
  • Google utiliza los datos del archivo HTTP para documentar top 10-15 robots sin soporte.txt reglas
  • Cloudflare propone credenciales anónimas para reemplazar el modelo binario de detección de bots-vs-humans
  • Sitios optimizados para agentes de IA ver 31% menos fichas consumidas and 66% respuestas más rápidas

1. El agente Readiness de Cloudflare Puntuación: Los datos que nadie esperaba

Cloudflare Agent Readiness Score breakdown

El 17 de abril, Cloudflare presentó el Agente Leeiness Score , una herramienta de diagnóstico que mide cómo se prepara un sitio web para la onda emergente de agentes de IA. A diferencia de las vagas listas de verificación "Listos" de AI, esta puntuación se construye sobre estándares concretos y respaldada por un análisis de 200.000 de los dominios más visitados en Internet.

Los resultados pintan una imagen espeluznante de dónde se encuentra la web.

78%
Tener robots.txt
(más escrito para motores de búsqueda, no AI)
4%
Declare las preferencias de uso de AI a través de signos de contenido
3.9%
Apoyo a la negociación de contenidos de marcación
<15
Sitios con tarjetas MCP Server o catálogos API (de 200K)

La puntuación evalúa cuatro dimensiones, cada una apuntando a una faceta diferente de interacción de agente:

Dimension Lo que chequea Normas incorporadas
Discoverability ¿Pueden los agentes encontrar y entender su estructura del sitio? robots.txt, sitemap.xml, Link Headers (RFC 8288)
Content ¿Pueden los agentes consumir su contenido de manera eficiente? Markdown for Agents support
Control de acceso de arranque ¿Ha declarado preferencias por el uso de AI? Signales de contenido, reglas de bot AI, Web Bot Auth
Capabilities ¿Pueden los agentes tomar acciones o utilizar sus servicios? Skills, API Catalog (RFC 9727), OAuth discovery, MCP Server Card, WebMCP
Pago de rendimiento para los adoptantes tempranos: Cloudflare probó su propia documentación contra los competidores después de optimizar para los agentes. El resultado: 31% menos fichas consumidas en promedio and 66% tiempos de respuesta más rápidos en comparación con los sitios de documentación no optimizados. Para cualquier sitio que sirva de referencia para sistemas de IA, es una mejora directa en la frecuencia y la exactitud de su contenido.

La herramienta de puntuación también produce retroalimentación accionable diseñada para que los agentes de codificación implementen correcciones, lo que significa que puede alimentar su informe de Agent Readiness directamente en Claude, Cursor, o herramientas similares y obtener parches de implementación.

2. Por qué 78% tener robots.txt no significa lo que piensas

Robots.txt AI signal gap visualization

El número de titulares , 78% de los sitios principales tienen robots.txt , suena saludable hasta que examine lo que esos archivos contienen realmente. La gran mayoría fue escrita hace años para Googlebot y Bingbot. No se dirigen a la nueva generación de rastreadores de IA.

La brecha crítica está en Signales de contenido: declaraciones explícitas en robots.txt sobre cómo los sistemas AI pueden utilizar su contenido. Sólo el 4% de los 200.000 dominios analizados incluyen estas señales. Esto significa que el 96% de los principales sitios web no tienen una declaración legible por máquina sobre si los agentes de IA pueden entrenar en su contenido, resumirlo o citarlo.

La Diferencia Práctica

Un robot tradicional.txt normalmente maneja access ¿Puedes arrastrar esta página o no? Content Signals handle usage ¿Qué puedes hacer con el contenido una vez que lo hayas accedido? Esta es la distinción que importa a medida que los agentes de IA se mueven de arrastrarse a acting en contenido web.

# Traditional robots.txt (access only)
User-agent: GPTBot
Disallow: /private/ # With Content Signals (access + usage preferences)
User-agent: GPTBot
Disallow: /private/ # Content Signals
# ai-usage: no-training
# ai-usage: allow-summary
# ai-usage: allow-citation
Previsión de auditoría: Ejecute su dominio a través de la herramienta Readiness Agent de Cloudflare ahora. Si su robots.txt carece de signos de contenido, usted está en el mismo barco que el 96% de la web, permitiendo pasivamente que los sistemas AI decidan cómo utilizar su contenido en lugar de declarar sus preferencias.

3. OpenAI-AdsBot: Un nuevo Crawler entra en la arena

OAI-AdsBot crawler entry timeline

La documentación de OpenAI ahora lista cuatro bots distintos. La nueva adición , OAI-AdsBot , sirve un propósito diferente de los otros. No arrastra la web abierta. valida las páginas de aterrizaje enviadas a través de la plataforma de publicidad de ChatGPT.

Bot Purpose ¿Respeta a robots.txt? IP Ranges Publicado?
GPTBot Reunión de datos sobre capacitación Yes Sí (.json)
OAI-SearchBot Resultados de búsqueda de ChatGPT Yes Sí (.json)
ChatGPT-User Navegación iniciada por el usuario Yes Sí (.json)
OAI-AdsBot Validación de la página de aterrizaje Unclear No

OAI-AdsBot realiza dos funciones cuando un anunciante envía una página de aterrizaje:

  1. Verificación del cumplimiento de las normas , verificar la página cumple con los estándares de publicidad de OpenAI
  2. Análisis de contenidos , evaluación de la página para determinar el tiempo de anuncio óptimo y la audiencia para usuarios de ChatGPT

Su cadena de usuario es:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, como Gecko); compatible; OAI-AdsBot/1.0
Diferencia de verificación: A diferencia de los otros tres bots de OpenAI, OAI-AdsBot no tiene ningún archivo de rango IP publicado. Eso significa que no puede verificar fiablemente si las solicitudes entrantes con esta cadena de usuario-agente son en realidad de OpenAI. Las cadenas de mando son trivialmente esponibles. Esta es una brecha significativa para los editores que ejecutan reglas de WAF o sistemas de gestión de bots.

Lo que significa para los anunciantes

Si estás ejecutando o planeando campañas de anuncios de ChatGPT, tus páginas de aterrizaje deben ser accesibles a OAI-AdsBot. Configuraciones agresivas de bot-blocking (Cloudflare Bot Management, Akamai Bot Manager, reglas de WAF personalizadas) pueden bloquear inadvertidamente la validación de anuncios, evitando que sus campañas inicien.

OpenAI declara explícitamente que los datos recogidos por OAI-AdsBot son no se utiliza para entrenar modelos de IA generativos , una distinción crítica del uso de datos de GPTBot.

4. Expansión de documentación de Google Robots.txt: ¿Qué está cambiando realmente

Google robots.txt supported directives overview

En un desarrollo separado pero relacionado, Google señaló que puede ampliar su documentación de no compatibles robots.txt directivas. Esto es un cambio de documentación, no un cambio de funcionalidad, pero importa más de lo que suena.

Google actualmente soporta exactamente cuatro robots.txt campos:

user-agent
Identificar qué bot las reglas se aplican a
allow
Permiso arrastrado de caminos específicos
disallow
Bloqueo de caminos específicos
sitemap
Punto a ubicación de mapa de sitio XML

Todo lo demás, crawl-delay, noindex, host, directivas personalizadas , es ignorado por Google. Pero muchos operadores de sitios no saben eso. La investigación de datos de Google revela la magnitud de la confusión.

La metodología de investigación

En lugar de adivinar qué reglas no compatibles para documentar, Google utilizó Datos del archivo HTTP queried via BigQuery. Construyeron un analizador de JavaScript personalizado para extraer reglas de robots.txt del archivo (las redes estándar no suelen capturar estos archivos). Su hallazgo: "Después de permitir y desactivar y agente de usuario, la gota es extremadamente drástica."

El objetivo es identificar el arriba 10-15 directivas no compatibles más utilizadas y documentar formalmente que Google los ignora. Gary Illyes también indicó que Google puede Ampliar la tolerancia de los tipo , aceptando errores más comunes de las directivas apoyadas , aunque no se dieron detalles ni plazos.

Tema de acción: Auditoría tus robots.txt ahora. Si estás usando crawl-delay, noindex, host, o cualquier directiva no estándar esperando que Google lo honra, no lo hace. Estas reglas pueden trabajar con otros rastreadores (Bing honors) crawl-delay, por ejemplo) pero nunca han influido en el comportamiento de Googlebot.

5. The Model Shift: From "Bots vs. Humans" to Intent-Based Signals

Intent-based signals replacing bot vs human

El puesto del 21 de abril de Cloudflare, "Moving past bots vs. humans", sostiene que todo el plan para la gestión de bots es obsoleto. La pregunta binaria , ¿Es esta petición de un bot o un humano? , ya no captura lo que realmente importa.

Los asistentes de IA buscan datos crudos sin hacer páginas. Los proxies de privacidad ocultan la identidad del usuario. La misma solicitud HTTP podría servir un informe privado o formar un modelo en nombre de millones de usuarios. La vieja taxonomía se descompone.

Credenciales anónimas: el reemplazo propuesto

La solución propuesta de Cloudflare se construye sobre Normas de privacidad (RFC 9576, RFC 9578), utilizando primitivos criptográficos (VOPRF y BlindRSA) para crear una nueva capa de confianza. El mecanismo básico:

  • Las fichas prueban atributos, no identidad , un cliente puede demostrar "Tengo una buena historia con este servicio" sin revelar "Soy este usuario específico"
  • Las fichas son inlinkable , no pueden ser correlacionados en todas las sesiones, evitando el seguimiento
  • Ya a escala , Privacy Pass tokens proceso miles de millones por día en la infraestructura de Cloudflare

El límite de tarifas Trilemma

Cloudflare identifica una limitación fundamental en la gestión del bot: descentralización, anonimato y rendición de cuentas, elegir dosLos sistemas actuales generalmente logran los dos primeros mientras sacrifican la rendición de cuentas. Nuevos estándares en relación con el desarrollo del IETF intentan equilibrar los tres:

Standard Status Lo que puede
Credenciales anónimas de tasa de emisión (ARC) IETF development Clientes sin identificarlos
Tokens de crédito anónimo (ACT) IETF development Acceso medido con preservación de la privacidad
Privacy Pass (RFC 9576/9578) Producción (millones/día) Probar la terminación del desafío sin cookies
Por qué esto importa para SEO: Si las credenciales anónimas se convierten en el estándar para la identificación de bot, el modelo actual de robots.txt de cadena de usuario-agente se convierte en un control secundario. Los sitios verificarían lo que un cliente está autorizado a hacer en lugar de que el cliente afirma serEsto cambia la gestión de bots desde el bloqueo basado en la identidad hasta el control de acceso basado en la capacidad.

6. El nuevo sistema AI Bot: un mapa completo

Three-layer AI bot system map

Entre la flota de bots en expansión de OpenAI, los nuevos estándares de Cloudflare y la auditoría de Google robots.txt, estamos viendo la formación de una arquitectura de tres capas para la interacción AI-web:

Layer Function Estado actual
Discovery Cómo los agentes encuentran y entienden la estructura del sitio robots.txt + sitemaps (78% adopción); Link Headers y Markdown (bajo 4%)
Control de acceso ¿Quién puede arrastrar lo que, y lo que pueden hacer con él Concordancia con el usuario (legado); signos de contenido (4%); credenciales anónimas (emergente)
Capabilities Qué acciones pueden tomar los agentes en su sitio MCP Server Cards (<15 sitios); catálogos de API (RFC 9727, cerca de cero); WebMCP (experimental)

Los datos cuentan una historia clara: la capa Discovery es madura pero mal alineada (construida para motores de búsqueda, no agentes de inteligencia artificial). La capa Control de Acceso está experimentando un repensamiento fundamental. La capa de Capacidades apenas existe fuera de un puñado de adoptantes tempranos.

Qué priorizar ahora

No todo necesita acción inmediata. Aquí hay una orden de implementación priorizada basada en los datos:

  1. Señales de contenido en robots.txt , El esfuerzo más bajo, el mayor impacto. Declare sus preferencias de uso de AI. (Actualmente: 4% adopción)
  2. negociación de contenidos de marcado , Esfuerzo moderado, pago mensurable. 31% de reducción de token para consumidores de IA. (Actualmente: 3,9%)
  3. Robots.txt audit , Eliminar las directivas no compatibles que pensabas que estaban trabajando. Toma 15 minutos.
  4. OAI-AdsBot handling , Si se ejecutan anuncios de ChatGPT, asegúrese de que las páginas de aterrizaje sean accesibles. Revisa las reglas del WAF.
  5. MCP Server Card / API Catalog , Sólo si usted ofrece servicios estructurados o APIs. El estándar sigue siendo muy temprano. (<15 sitios)

7. What Changes for Technical SEO Teams Esta semana

Technical SEO weekly action checklist

Estos desarrollos se traducen en tareas concretas para profesionales técnicos de SEO:

Inmediata (Esta semana)

  • Ejecute el cheque del agente Readiness en sus dominios superiores. Documenta tu puntuación de referencia.
  • Robots de auditoría.txt para directivas no estándar (crawl-delay, noindex, host) que Google nunca ha honrado.
  • Chequee los registros del servidor para el tráfico OAI-AdsBot si estás corriendo o considerando anuncios ChatGPT.
  • Revisar las reglas de gestión WAF/bot para asegurarse de que no bloquean la validación legítima del bot AI.

A corto plazo (Siguiente 30 días)

  • Agregar signos de contenido a robots.txt declarando sus preferencias de uso de AI.
  • Implementar la negociación de contenidos de marcación para páginas de contenido de alto valor y documentación.
  • Crear un panel de monitoreo de rastreadores AI GPTBot, OAI-SearchBot, ChatGPT-User, OAI-AdsBot, ClaudeBot y otros.

Lista de verificación

  • Aprobación de credenciales anónimas , El pase de privacidad de Cloudflare está en vivo, pero ARC y ACT todavía están en desarrollo de IETF.
  • Actualización de documentación de Google robots.txt , La lista de directivas no compatibles superior 10-15 no ha sido publicada todavía.
  • OAI-AdsBot IP ranges , OpenAI no ha publicado un archivo JSON todavía. Monitoree su documentación de rastreadores para actualizaciones.

Preguntas frecuentes

¿Cuál es la puntuación del agente Readiness de Cloudflare?

Es una herramienta diagnóstica que evalúa sitios web a través de cuatro dimensiones: Descubribilidad (robots.txt, mapas de sitios, encabezados de enlace por RFC 8288), Contenido (Apoyo para Agentes), Control de acceso de Bot (Señales de contenido, reglas de bot AI, Auth Web Bot), y Capacidades (Agent Skills, API Catalog via RFC 9727, OAuth discovery, MCP Server Card). La herramienta proporciona una puntuación numérica más cheques individuales de pase/fail, y genera una retroalimentación accionable que los agentes de codificación pueden implementar directamente.

¿Qué porcentaje de sitios web están listos para agentes de IA?

Basado en el análisis de Cloudflare de 200.000 dominios más visitados: sólo el 4% declara preferencias de uso de AI a través de señales de contenido. Mientras que el 78% tiene robots.txt, la mayoría de los archivos fueron escritos para los motores de búsqueda tradicionales. Sólo el 3,9% apoya la negociación de contenidos de marcado. Menos de 15 sitios en todo el conjunto de datos de 200K tienen MCP Server Cards o API Catalogs, la infraestructura necesaria para que los agentes tomen acciones en un sitio.

¿Qué es OAI-AdsBot y cómo difiere de GPTBot?

OAI-AdsBot es el nuevo rastreador de OpenAI para validar páginas de aterrizaje de anuncios de ChatGPT. A diferencia de GPTBot (que arrastra la web abierta para datos de capacitación), OAI-AdsBot sólo visita páginas enviadas como destinos de anuncios. Comproba el cumplimiento de las políticas y analiza el contenido para la asignación de anuncios. Críticamente, los datos recogidos por OAI-AdsBot son not solía entrenar modelos de IA. Sin embargo, actualmente no tiene rangos de IP publicados y no está claro si respeta robots.txt.

¿Cómo puedo bloquear o gestionar OAI-AdsBot en mi sitio?

Esta es actualmente una brecha en la documentación de OpenAI. Mientras GPTBot y OAI-SearchBot respetan robots.txt, OpenAI no ha especificado si OAI-AdsBot lo hace. No existe ningún archivo JSON de rango IP para verificación. Si ejecuta anuncios ChatGPT, bloquear este bot puede prevenir la validación de anuncios. Los anunciantes deben blanquear el agente del usuario OAI-AdsBot/1.0 en las páginas de aterrizaje de anuncios. Para los no convertidores, monitoree los registros para la cadena de usuario y considere contactar con OpenAI para la documentación de rango IP.

¿Google está cambiando robots.txt reglas o funcionalidad?

No. Google se está expandiendo documentation, no funcionalidad. Google todavía sólo admite cuatro directivas: user-agent, allow, disallow, y sitemap. El cambio es que Google está utilizando los datos HTTP Archive/BigQuery para identificar los 10-15 más utilizados unsupported directivas y documentarán formalmente que son ignoradas. Gary Illyes también insinuó en la expansión de la tolerancia de la tipo para las directivas apoyadas. Esta es una actualización de claridad, no un cambio técnico.

¿Qué son las credenciales anónimas y por qué importan para SEO?

Las credenciales anónimas son fichas de reserva de privacidad (construidas en Privacy Pass RFC 9576/9578) que permiten a los clientes probar atributos ("tengo buena historia") sin revelar identidad. Cloudflare procesa miles de millones de estos diariamente. Para SEO, esto importa porque podría reemplazar la cadena de usuario-agente que coincida como el método de identificación de bot primario. En lugar de bloquear por nombre bot, los sitios verificarían capacidades y autorización , cambiar la gestión del bot de la identidad a la intención. Nuevos estándares de IETF (ARC, ACT) están extendiendo esto a la limitación de tarifas y acceso medido.

¿Qué debería priorizar primero para que mi sitio esté listo?

Basado en los datos, priorizar en este orden: (1) Añadir señales de contenido a robots.txt declarando preferencias de uso de AI , sólo 4% de los sitios hacen esto. (2) Implementar la negociación de contenidos de marcado , sitios que lo hacen ver 31% menos fichas consumidas y 66% más rápido respuestas de inteligencia artificial. (3) Robots de auditoría.txt para directivas no estándar (crawl-delay, noindex, host) que Google ignora. (4) Si se ejecutan anuncios de ChatGPT, asegúrese de que las páginas de aterrizaje sean accesibles a OAI-AdsBot. (5) Considere las tarjetas de servidor MCP o los catálogos de API sólo si ofrece servicios estructurados, el sistema es extremadamente temprano (menos de 15 sitios).

Escucha este artículo

NotebookLM audio resumen se añadirá aquí.

Sources

Sobre el autor

Francisco Leon de Vivero en una conferencia de la industriaSobre el autor

Francisco Leon de Vivero

Francisco es un estratega senior de SEO y vicepresidente de crecimiento en Growing Search, con más de 15 años de experiencia en búsqueda de empresas. Anteriormente sirvió como Jefe de Plan Global SEO en Shopify de 2015 a 2022 y se centra en SEO técnico, estrategia de búsqueda internacional y optimización de plataformas.

Artículos relacionados

Siguiente paso

Convierte esta lectura en un plan SEO más actual.

Usa la página actual más relevante si este tema sigue en tu roadmap, y revisa las pruebas y rutas de contacto si quieres apoyo directo.

Página de servicio actual

Technical SEO Advisory

El objetivo no es la comprobación de cuentas. Está traduciendo cuestiones técnicas complejas en acciones prioritarias que los equipos de desarrollo y marketing pueden ejecutar realmente.

Explorar este servicio