'Nombrar, Avergonzar y Bloquearlos Duramente': Cloudflare Critica a Perplexity por el Raspado de Sitios Web con IA
Perplexity ha sido pillado con las manos en la masa por Cloudflare, ya que la startup ha estado esquivando sitios web que no quieren ser rastreados por los crawlers de IA. Típicamente, los motores de respuestas de IA como Perplexity o ChatGPT revisan varios sitios web en internet y extraen datos como texto, imágenes y otro contenido para generar respuestas, a menudo sin obtener permiso.
Cloudflare ha publicado ahora su investigación, afirmando que Perplexity usa tácticas dudosas para eludir las restricciones ocultando su identidad para rastrear sitios web, a pesar de que los sitios web se hayan excluido explícitamente.
El CEO de Cloudflare, Matthew Prince, ha criticado a Perplexity en X, afirmando que "Algunas empresas de IA supuestamente 'reputables' actúan más como hackers norcoreanos. Es hora de nombrarlos, avergonzarlos y bloquearlos duramente."
También lee:
El Navegador de IA Comet de Perplexity se Lanza con un Agente de IA Integrado
Esto, por supuesto, perjudica el tráfico del sitio, por lo que algunos sitios web han comenzado a usar el archivo 'robots.txt' para frenar el almuerzo gratis de la IA. Este archivo indica a los rastreadores de IA qué páginas un sitio quiere indexar y cuáles no. Pero según el informe de Cloudflare, Perplexity parece estar violando completamente el estándar robots.txt.
Cloudflare publicó el informe después de recibir varias quejas de sus clientes, quienes afirmaban que Perplexity todavía tenía acceso al contenido de sus sitios web, a pesar de haber establecido restricciones en el archivo Robots.txt y creado reglas de Firewall de Aplicaciones Web (WAF) para evitar que los bots de IA rasparan datos.
En respuesta a las quejas, Cloudflare creó dominios de prueba con restricciones similares para observar el comportamiento de Perplexity. Descubrieron que Perplexity intenta acceder inicialmente a los sitios usando sus rastreadores habituales, es decir, "PerplexityBot" o "Perplexity-User". Sin embargo, si la IA encuentra restricciones, cambia su agente de usuario, el identificador que le dice a un sitio web qué tipo de navegador y dispositivo se está utilizando.
También lee:
OpenAI está Desarrollando un Navegador Web para Competir con Google Chrome
En el caso de Perplexity, se enmascaró como un navegador Chrome en macOS. Además, Perplexity usó direcciones IP "rotativas" que la empresa no menciona en su lista de direcciones IP utilizadas por sus bots. El informe de Cloudflare también menciona que Perplexity cambia sus redes de sistemas autónomos (ASN), que son identificadores únicos utilizados para distinguir grandes redes.
Cloudflare menciona en su publicación: "Esta actividad se observó en decenas de miles de dominios y millones de solicitudes por día. Pudimos identificar este rastreador usando una combinación de aprendizaje automático y señales de red."
Perplexity fue pillado haciendo lo mismo en junio del año pasado, ignorando muros de pago y archivos Robots.txt en sitios web. En ese entonces, el CEO de la empresa, Aravind Srinivas, culpó a los rastreadores de terceros de los que dependía la empresa. Pero ahora, la situación es diferente, y la culpa recae directamente sobre Perplexity.
En una declaración a The Verge, el portavoz de Perplexity, Jesse Dwyer, califica el informe de Cloudflare como un "golpe publicitario". Además añade que "hay muchos malentendidos en la publicación del blog". Sin embargo, todavía estamos esperando escuchar más de Perplexity. Mientras tanto, Cloudflare ha eliminado a Perplexity como un bot verificado y está implementando nuevas formas de bloquear a Perplexity para que no rastree sitios web.
También vale la pena señalar que Apple ha estado interesada en comprar Perplexity y, según los informes, estaba en conversaciones iniciales. Sin embargo, tras este informe, el gigante de Cupertino podría reconsiderar ahora su decisión.