AI Search Is Contaminating Itself: The Retrieval Poisoning Crisis and What Google Click Signals En realidad Do
56% de Google AI Resúmenes Las citas son infundadas. El contenido sintético de SEO está envenenando los sistemas RAG en tiempo real. Además: documentos DOJ revelan cómo Navboost y RankEmbedBERT procesan realmente los datos de clic.
Los sistemas de búsqueda de IA están contaminando sus propios productos a través de un bucle de recuperación en tiempo real que no requiere ciclo de reciclaje para difundir información errónea. An Oumi analysis of 4,326 AI Reseña general encontró que mientras que el 85–91% parecen exactos en la superficie, El 56% de las respuestas correctas no se han basado — las fuentes citadas no apoyan realmente las reclamaciones. Por separado, los documentos antimonopolio DOJ finalmente aclaran cómo Google actually utiliza datos de clic a través de Navboost y RankEmbedBERT.
Juntos, estos hallazgos exponen dos malentendidos fundamentales en la industria del SEO: que las citas de AI equivalen a confianza, y que los clics influyen directamente en los rankings. Tampoco es cierto, y la brecha entre la percepción y la realidad se está ampliando.
1. The Retrieval Poisoning Crisis: AI Search is Eating Itself
A diferencia de la contaminación del modelo tradicional (que requiere reentrenamiento durante meses), sistemas basados en RAG como Google AI Resúmenes, Perplejidad y ChatGPT buscar contenido web en vivo y presentarlo como respuestas autorizadas. Cuando ese contenido vivo es en sí mismo generado por AI, alucinado o fabricado, la contaminación es instantánea. La capa de recuperación no es un filtro, es el vector de infección.
2. Los Números: ¿Qué tan malo es la contaminación?
| Metric | Finding | Source |
|---|---|---|
| Precisión de la superficie | 85-91% en 4.326 pruebas | Análisis de Oumi |
| Respuestas correctas sin conexión | 56% citó fuentes no compatibles | Análisis de Oumi |
| ChatGPT "mejor X" citas de lista | 44% de todas las citaciones | Ahrefs study |
| GPT-5.4 vs GPT-5.3 false claims | El tigre pagado produce 33% menos | Análisis de SEJ |
| Usuarios Free-tier OpenAI | 94% utiliza versiones menos fiables | Análisis de SEJ |
3. The Mechanism: Why RAG Systems Are the Infection Vector
Dos documentos académicos demuestran la vulnerabilidad estructural. PoisonedRAG (Zou et al., 2024) mostraron que un pequeño número de pasajes elaborados pueden controlar las salidas del sistema RAG sin comprometer el modelo en sí, inyectando contenido en el cuerpo de recuperación es suficiente. BadRAG (Xue et al., 2024) demostraron los backdoors semánticos que permiten una manipulación similar a través del contenido diseñado para desencadenar patrones de recuperación específicos.
La cadena de ataque práctica funciona así: un oleoducto de contenido AI genera un artículo especulativo → el artículo se indexa dentro de horas → un sistema RAG lo atraviesa durante una consulta de usuario y lo cita → otros oleoductos AI observan la cita y referencia del mismo contenido → la reclamación fabricada se convierte en "consenso" a través de múltiples sistemas AI sin ninguna verificación humana.
La Grokipedia de xAI ejemplifica el punto final de esta tendencia, una enciclopedia reescrita por AI que basa artículos en contenido web contaminado, incluyendo los carretes de Instagram como fuentes. No existe un mecanismo de responsabilidad humana para corregir errores.
4. El papel de la industria SEO en el circuito de contaminación
La ironía es aguda: la industria SEO es simultáneamente la víctima y el acelerador de esta crisis. Cuando AI Overviews y herramientas de búsqueda de AI comenzaron a capturar el tráfico que anteriormente se dirigía a los editores, las agencias respondieron mediante el despliegue de tuberías de contenido AI a escala. Pero el contenido que estos oleoductos generan, análisis de algoritmos especulativos, redondeos "mejor X", artículos genéricos, se convirtió en la materia prima que otros sistemas de IA ahora citan.
5. Google Click Signals: Lo que el DOJ documenta en realidad
DOJ documentos antimonopolios de septiembre de 2025 cortan a través de mitos persistentes sobre cómo Google utiliza los datos de clic. El hallazgo clave: los clics son el punto de datos más bajo, no un factor de clasificación. Son procesados, agregados y transformados antes de influir en cualquier cosa.
Cómo Hacer clic en Datos Flujos A través de los Sistemas de Google
| Sendero de procesamiento | System | Lo que sucede |
|---|---|---|
| Formación modelo AI | RankEmbedBERT | Haga clic en los datos combinados con las puntuaciones humanas entrena modelos de clasificación. Utiliza 1/100th los datos de modelos anteriores al producir resultados de mayor calidad. |
| Medición agregada | Fórmula de fracción | Los clics individuales son resumidos y normalizados en medidas estadísticas, luego suavizados para prevenir la manipulación del spam. |
| Señales de popularidad | Navboost | Mide la popularidad a través de la retroalimentación agregada del usuario, no el seguimiento individual del clic. |
Fórmula de fracción de clics
Una patente de Google 2006 describe cómo los clics individuales se convierten en señales agregadas:
LCC BASE = [#WC(Q,D)] / [#C(Q,D) + S0]
// #WC(Q,D) = weighted click count for query Q and document D
// #C(Q,D) = total click count for that query-document pair
// S0 = smoothing constant to prevent gaming
RankEmbedBERT: Menos datos, mejores resultados
Los documentos del DOJ revelan que RankEmbedBERT está capacitado el 1/100 de los datos de sus predecesores al producir resultados de búsqueda de mayor calidad. Esto sugiere que Google ha pasado de enfoques dependientes de la cantidad a las arquitecturas que extraen más señal de menos datos, haciendo que la calidad de las señales de entrenamiento (incluyendo las derivadas de clics) más importante que su volumen.
6. Correo de trabajo GEO de Google: Una señal mezclada
La organización de anuncios de Google publicó un papel de "GEO Partner Manager, Performance Solutions" dentro de su equipo de ventas de clientes grandes. El listado menciona "Generative Engine Optimization" siete veces y referencias analizando "Compartir de Modelo" , la visibilidad de una marca en respuestas generadas por AI.
Preguntas frecuentes
¿Qué es el envenenamiento por capa de recuperación en la búsqueda de IA?
El envenenamiento por capas de recuperación ocurre cuando los sistemas de búsqueda de IA basados en RAG obtienen contenido web en vivo que contiene información errónea generada por IA, y luego lo citan como factual. A diferencia de la contaminación de los datos de entrenamiento que requiere ciclos de readiestramiento, el envenenamiento de la recuperación ocurre en tiempo real, un artículo fabricado puede ser indexado y citado dentro de 24 horas.
¿Qué porcentaje de las citas de Google AI Vista general no están encendidas?
Según un análisis de Oumi de 4,326 pruebas de AI Vista general, mientras que el 85-91% mostró exactitud superficial, el 56% de las respuestas correctas no estaban encendidas, las fuentes citadas no apoyaron realmente las afirmaciones que se estaban haciendo.
¿Usa Google clics como factor de clasificación directa?
No. Según documentos antimonopolios del DOJ de septiembre de 2025, los clics son el punto de datos más bajo que se procesa en señales de mayor nivel. Los agregados de Google hacen clic en los datos en medidas estadísticas y lo utilizan para formar modelos de IA como RankEmbedBERT. Los clics individuales no clasifican directamente los sitios web.
¿Qué es Navboost y cómo afecta la clasificación?
Navboost es un sistema de clasificación de Google que mide popularidad a través de la retroalimentación agregada del usuario. Procesa datos de clic agregados, no clics individuales, para crear señales sobre la satisfacción del usuario y la relevancia del contenido.
¿Cómo el contenido SEO sintético crea un bucle de contaminación?
Las agencias de SEO implementan tuberías de contenido AI que generan artículos especulativos. Otros oleoductos de IA citan esos artículos como fuentes. Los sistemas RAG buscan este contenido en tiempo real y lo presentan como factual. Un ejemplo documentado: Perplejidad citó una inexistente "Septiembre 2025 Perspective Core Algorithm Update" fuente enteramente de los blogs de SEO generados por AI.
¿Cuál es la posición de Google en la Optimización del Motor Generativo (GEO)?
Google envía señales mixtas. Gary Illyes declaró que el SEO estándar basta para las Reseñas AI. Sin embargo, la organización de anuncios de Google publicó un papel de "GEO Partner Manager" que menciona a GEO siete veces y referencia al análisis "Share of Model". Los equipos de búsqueda y anuncios aparecen mal alineados.
¿Qué es "Compartir de Modelo" y por qué importa?
Share of Model mide la visibilidad de una marca en las respuestas generadas por AI , con qué frecuencia aparece una marca cuando los sistemas AI responden a las consultas pertinentes. Representa un cambio de las métricas tradicionales de Share of Voice hacia la medición de la influencia dentro de los motores de respuesta AI, y puede indicar futuras superficies de publicidad pagadas.

LinkedIn ·