News Archivado

AI Search Is Contaminating Itself: The Retrieval Poisoning Crisis and What Google Click Signals En realidad Do

56% de Google AI Resúmenes Las citas son infundadas. El contenido sintético de SEO está envenenando los sistemas RAG en tiempo real. Además: documentos DOJ revelan cómo Navboost y RankEmbedBERT procesan realmente los datos de clic.

Actualizado 24 de abril de 2026 Francisco Leon de Vivero
AI Search Is Contaminating Itself: The Retrieval Poisoning Crisis and What Google Click Signals En realidad Do

Artículo archivado

Este artículo se publicó originalmente en 24 de abril de 2026 y no se ha actualizado.

Se conserva aquí como referencia histórica. Algunas herramientas, recomendaciones, detalles de algoritmos y enlaces pueden estar desactualizados o ya no ser precisos. Para orientación actual, consulta las páginas de servicio actualizadas de Francisco o reserva una consulta enfocada.

Los sistemas de búsqueda de IA están contaminando sus propios productos a través de un bucle de recuperación en tiempo real que no requiere ciclo de reciclaje para difundir información errónea. An Oumi analysis of 4,326 AI Reseña general encontró que mientras que el 85–91% parecen exactos en la superficie, El 56% de las respuestas correctas no se han basado — las fuentes citadas no apoyan realmente las reclamaciones. Por separado, los documentos antimonopolio DOJ finalmente aclaran cómo Google actually utiliza datos de clic a través de Navboost y RankEmbedBERT.

Juntos, estos hallazgos exponen dos malentendidos fundamentales en la industria del SEO: que las citas de AI equivalen a confianza, y que los clics influyen directamente en los rankings. Tampoco es cierto, y la brecha entre la percepción y la realidad se está ampliando.

56%
Respuestas correctas de AI Información que no están en tierra
4,326
Respuestas generales de AI probadas (Oumi)
44%
ChatGPT citaciones que son "mejor X" listicles
1/100th
Datos utilizados por los predecesores RankEmbedBERT vs.

1. The Retrieval Poisoning Crisis: AI Search is Eating Itself

A diferencia de la contaminación del modelo tradicional (que requiere reentrenamiento durante meses), sistemas basados en RAG como Google AI Resúmenes, Perplejidad y ChatGPT buscar contenido web en vivo y presentarlo como respuestas autorizadas. Cuando ese contenido vivo es en sí mismo generado por AI, alucinado o fabricado, la contaminación es instantánea. La capa de recuperación no es un filtro, es el vector de infección.

La velocidad de la contaminación: Un periodista de la BBC publicó un artículo inventado sobre los rankings de comida de perros calientes. Dentro de 24 horas, ocupó el primer puesto en Google y fue citado por Google AI Overviews y OpenAI como factual. Sin necesidad de reentrenamiento, la capa de recuperación trató una URL indigno como fuente confiable inmediatamente.
Esto es diferente del "desplome del modelo" que los investigadores han advertido. El colapso del modelo es una degradación lenta de los ciclos de entrenamiento. El envenenamiento por recuperación es en tiempo real. Un blog especulativo publicado a las 9 AM puede ser citado como hecho autorizado por 10 AM. Este activo se conecta con el Problema de citación fantasma , los sistemas AI están citando contenido sin verificarlo, y ahora sin siquiera verificar que las citas apoyen las reclamaciones.
Isometric visualization of the AI retrieval poisoning loop showing how synthetic content cycles through RAG systems

2. Los Números: ¿Qué tan malo es la contaminación?

MetricFindingSource
Precisión de la superficie85-91% en 4.326 pruebasAnálisis de Oumi
Respuestas correctas sin conexión56% citó fuentes no compatiblesAnálisis de Oumi
ChatGPT "mejor X" citas de lista44% de todas las citacionesAhrefs study
GPT-5.4 vs GPT-5.3 false claimsEl tigre pagado produce 33% menosAnálisis de SEJ
Usuarios Free-tier OpenAI94% utiliza versiones menos fiablesAnálisis de SEJ
El análisis de Oumi revela una distinción crítica entre la exactitud de la superficie* y la exactitud*. Una respuesta puede sonar correcta al citar fuentes que en realidad no apoyan la reclamación. Más de la mitad de las respuestas "correctas" caen en esta categoría, dan la ilusión de autoridad respaldada por citas sin la sustancia. A través de 5.380 fuentes analizadas, Facebook y Reddit clasificaron como las plataformas segunda y cuarta más recitadas, ninguna de las cuales tiene mecanismos para verificar la autoría humana o la exactitud fáctica.
El problema de la estratificación de calidad: GPT-5.4 (titular pagado) produce 33% menos falsas afirmaciones que el GPT-5.3 libre, pero 94% de los usuarios de OpenAI acceden a la versión gratuita menos fiable. Los usuarios más vulnerables reciben las respuestas menos precisas.
56% of correct AI Overview answers cite sources that don't support the claims ,  ungrounded citations analysis

3. The Mechanism: Why RAG Systems Are the Infection Vector

Dos documentos académicos demuestran la vulnerabilidad estructural. PoisonedRAG (Zou et al., 2024) mostraron que un pequeño número de pasajes elaborados pueden controlar las salidas del sistema RAG sin comprometer el modelo en sí, inyectando contenido en el cuerpo de recuperación es suficiente. BadRAG (Xue et al., 2024) demostraron los backdoors semánticos que permiten una manipulación similar a través del contenido diseñado para desencadenar patrones de recuperación específicos.

La cadena de ataque práctica funciona así: un oleoducto de contenido AI genera un artículo especulativo → el artículo se indexa dentro de horas → un sistema RAG lo atraviesa durante una consulta de usuario y lo cita → otros oleoductos AI observan la cita y referencia del mismo contenido → la reclamación fabricada se convierte en "consenso" a través de múltiples sistemas AI sin ninguna verificación humana.

Caso documentado: La perplejidad citó con confianza una inexistente "Actualización del Algoritmo Core Perspectiva" de septiembre de 2025 tirando de entradas del blog de SEO generadas por AI. La actualización nunca ocurrió. Múltiples blogs de SEO habían especulado sobre ello utilizando herramientas de contenido AI, y la especulación se convirtió en citación-lavado en hecho aparente.

La Grokipedia de xAI ejemplifica el punto final de esta tendencia, una enciclopedia reescrita por AI que basa artículos en contenido web contaminado, incluyendo los carretes de Instagram como fuentes. No existe un mecanismo de responsabilidad humana para corregir errores.

4. El papel de la industria SEO en el circuito de contaminación

La ironía es aguda: la industria SEO es simultáneamente la víctima y el acelerador de esta crisis. Cuando AI Overviews y herramientas de búsqueda de AI comenzaron a capturar el tráfico que anteriormente se dirigía a los editores, las agencias respondieron mediante el despliegue de tuberías de contenido AI a escala. Pero el contenido que estos oleoductos generan, análisis de algoritmos especulativos, redondeos "mejor X", artículos genéricos, se convirtió en la materia prima que otros sistemas de IA ahora citan.

El Ciclo de Auto-Reforzamiento: Búsqueda de IA reduce el tráfico de editores → Los editores implementan tuberías de contenido de IA para mantener el volumen → Contenido generado por IA inunda el índice → Los sistemas RAG citan contenido generado por IA como hecho → Lavado de la Citación legitima las afirmaciones fabricadas → Calidad de la información degrada → Los usuarios confían en IA menos pero lo usan más (gana la conveniencia) → Ciclo repite.
Esto se conecta con el Investigación mecánica de citación de ChatGPT mostrando que el 44% de las citas de ChatGPT son listicles "mejor X", los formatos de contenido exactos que los oleoductos AI producen al mayor volumen, normalmente estructurado alrededor de la clasificación de productos autointeresados en lugar de evaluación independiente. Mientras tanto, los creadores humanos están abandonando la web abierta mientras la negociación de tráfico colapsa. El contenido que *debería* proporcionar una experiencia genuina de primera mano se publica cada vez más detrás de las paredes de pago, en los boletines, o no en absoluto, dejando la web abierta al contenido sintético que los sistemas AI continuarán ingerir y citar. El Estrategias de supervivencia con cero clic nos cubrimos antes se vuelven aún más críticos en este contexto.
How Google processes click data through RankEmbedBERT, Click Fraction formula, and Navboost ,  DOJ documents reveal

5. Google Click Signals: Lo que el DOJ documenta en realidad

DOJ documentos antimonopolios de septiembre de 2025 cortan a través de mitos persistentes sobre cómo Google utiliza los datos de clic. El hallazgo clave: los clics son el punto de datos más bajo, no un factor de clasificación. Son procesados, agregados y transformados antes de influir en cualquier cosa.

3
Formas primarias Google procesa los datos
1/100th
Datos utilizados por RankEmbedBERT vs. modelos anteriores

Cómo Hacer clic en Datos Flujos A través de los Sistemas de Google

Sendero de procesamientoSystemLo que sucede
Formación modelo AIRankEmbedBERTHaga clic en los datos combinados con las puntuaciones humanas entrena modelos de clasificación. Utiliza 1/100th los datos de modelos anteriores al producir resultados de mayor calidad.
Medición agregadaFórmula de fracciónLos clics individuales son resumidos y normalizados en medidas estadísticas, luego suavizados para prevenir la manipulación del spam.
Señales de popularidadNavboostMide la popularidad a través de la retroalimentación agregada del usuario, no el seguimiento individual del clic.

Fórmula de fracción de clics

Una patente de Google 2006 describe cómo los clics individuales se convierten en señales agregadas:

// Google's Click Fraction Formula (2006 Patent)

LCC BASE = [#WC(Q,D)] / [#C(Q,D) + S0]

// #WC(Q,D) = weighted click count for query Q and document D
// #C(Q,D) = total click count for that query-document pair
// S0 = smoothing constant to prevent gaming
La constante de suavizado S0 es crítica: impide que las consultas de bajo volumen se jueguen por clics artificiales. La manipulación individual del clic está diluida por el proceso de normalización. Este no es un sistema de "más clics = ranking superior", es una agregación estadística diseñada para resistir exactamente ese tipo de manipulación.
La práctica: La manipulación de la tarifa de clic a través (títulos de clickbait, fragmentos engañosos) no aumenta directamente los rankings. Los procesos de Google hacen clic a través de agregación, normalización y suavizado antes de influir en cualquier sistema de clasificación. Enfóquese en satisfacer la intención del usuario en lugar de maximizar los clics crudos.

RankEmbedBERT: Menos datos, mejores resultados

Los documentos del DOJ revelan que RankEmbedBERT está capacitado el 1/100 de los datos de sus predecesores al producir resultados de búsqueda de mayor calidad. Esto sugiere que Google ha pasado de enfoques dependientes de la cantidad a las arquitecturas que extraen más señal de menos datos, haciendo que la calidad de las señales de entrenamiento (incluyendo las derivadas de clics) más importante que su volumen.

6. Correo de trabajo GEO de Google: Una señal mezclada

La organización de anuncios de Google publicó un papel de "GEO Partner Manager, Performance Solutions" dentro de su equipo de ventas de clientes grandes. El listado menciona "Generative Engine Optimization" siete veces y referencias analizando "Compartir de Modelo" , la visibilidad de una marca en respuestas generadas por AI.

La contradicción: Gary Illyes de Google declaró que las prácticas estándar de SEO son suficientes para AI Overviews. Ahora el equipo de anuncios de Google está contratando para GEO. Las divisiones de búsqueda y anuncios parecen estar operando desde diferentes juegos.
Esto vale la pena monitorizar pero no exagerar. Representa una señal de contratación de la organización de ventas de publicidad de Google. La implicación práctica: El equipo de anuncios de Google ve la oportunidad comercial en el espacio GEO, incluso si el equipo de calidad de búsqueda no respalda el plan. La métrica "Compartir de Modelo" es el elemento más interesante, si Google desarrolla herramientas para medir la visibilidad de la marca dentro de las respuestas generadas por AI, esa es una señal que Optimización de respuesta de AI eventualmente se convertirá en una superficie de publicidad pagada, no sólo un canal de descubrimiento orgánico.
Infographic showing the AI retrieval poisoning cycle, 56% ungrounded citation rate, Google click signal processing through Navboost and RankEmbedBERT, and the GEO mixed signals from Google

Artículos relacionados

Preguntas frecuentes

¿Qué es el envenenamiento por capa de recuperación en la búsqueda de IA?

El envenenamiento por capas de recuperación ocurre cuando los sistemas de búsqueda de IA basados en RAG obtienen contenido web en vivo que contiene información errónea generada por IA, y luego lo citan como factual. A diferencia de la contaminación de los datos de entrenamiento que requiere ciclos de readiestramiento, el envenenamiento de la recuperación ocurre en tiempo real, un artículo fabricado puede ser indexado y citado dentro de 24 horas.

¿Qué porcentaje de las citas de Google AI Vista general no están encendidas?

Según un análisis de Oumi de 4,326 pruebas de AI Vista general, mientras que el 85-91% mostró exactitud superficial, el 56% de las respuestas correctas no estaban encendidas, las fuentes citadas no apoyaron realmente las afirmaciones que se estaban haciendo.

¿Usa Google clics como factor de clasificación directa?

No. Según documentos antimonopolios del DOJ de septiembre de 2025, los clics son el punto de datos más bajo que se procesa en señales de mayor nivel. Los agregados de Google hacen clic en los datos en medidas estadísticas y lo utilizan para formar modelos de IA como RankEmbedBERT. Los clics individuales no clasifican directamente los sitios web.

¿Qué es Navboost y cómo afecta la clasificación?

Navboost es un sistema de clasificación de Google que mide popularidad a través de la retroalimentación agregada del usuario. Procesa datos de clic agregados, no clics individuales, para crear señales sobre la satisfacción del usuario y la relevancia del contenido.

¿Cómo el contenido SEO sintético crea un bucle de contaminación?

Las agencias de SEO implementan tuberías de contenido AI que generan artículos especulativos. Otros oleoductos de IA citan esos artículos como fuentes. Los sistemas RAG buscan este contenido en tiempo real y lo presentan como factual. Un ejemplo documentado: Perplejidad citó una inexistente "Septiembre 2025 Perspective Core Algorithm Update" fuente enteramente de los blogs de SEO generados por AI.

¿Cuál es la posición de Google en la Optimización del Motor Generativo (GEO)?

Google envía señales mixtas. Gary Illyes declaró que el SEO estándar basta para las Reseñas AI. Sin embargo, la organización de anuncios de Google publicó un papel de "GEO Partner Manager" que menciona a GEO siete veces y referencia al análisis "Share of Model". Los equipos de búsqueda y anuncios aparecen mal alineados.

¿Qué es "Compartir de Modelo" y por qué importa?

Share of Model mide la visibilidad de una marca en las respuestas generadas por AI , con qué frecuencia aparece una marca cuando los sistemas AI responden a las consultas pertinentes. Representa un cambio de las métricas tradicionales de Share of Voice hacia la medición de la influencia dentro de los motores de respuesta AI, y puede indicar futuras superficies de publicidad pagadas.

Francisco Leon de ViveroLinkedIn · YouTube · Reserva una consulta

Siguiente paso

Convierte esta lectura en un plan SEO más actual.

Usa la página actual más relevante si este tema sigue en tu roadmap, y revisa las pruebas y rutas de contacto si quieres apoyo directo.

Página de servicio actual

Technical SEO Advisory

El objetivo no es la comprobación de cuentas. Está traduciendo cuestiones técnicas complejas en acciones prioritarias que los equipos de desarrollo y marketing pueden ejecutar realmente.

Explorar este servicio