MADRID, 5 de julio (Portaltic/EP) –
Cloudflare ha lanzado una nueva función gratuita en el servicio Tu Internet que te permite utilizar automáticamente bloquea los bots de las empresas de inteligencia artificial (IA) que utilizan para realizar web scraping, impidiéndoles rastrear los sitios web de sus clientes.
Gracias a los avances en la IA en general, existe una demanda creciente de contenido de IA. Se utiliza para entrenar modelos o ejecutar inferencias. Entonces, uno de los métodos que utilizan las empresas para obtener nuevos datos es el «web scraping» o raspado de datos de Internet.
En particular, es un proceso legal en el que el «software» extrae el código HTML. . contenido de sitios web para filtrar información y almacenarla, recopilando así los datos necesarios para entrenar modelos de IA.
Aunque algunas empresas desarrollan tecnología, las herramientas impulsadas por esta tecnología identifican el web scraping con bots que utilizan para extraer datos de Internet, otras empresas no son tan transparentes. En este sentido, la empresa estadounidense Cloudflare afirma que sus clientes no quieren que los robots con IA accedan a sus sitios web, especialmente “aquellos que lo hacen de forma deshonesta”.
Para proponer una solución a este problema, la empresa especializada en Los servicios de seguridad de Internet han agregado una nueva función gratuita a sus servicios, que bloqueará automáticamente todos los robots de IA que identifique en los sitios web, para que no puedan realizar dicho raspado de datos.
Así lo anunció Cloudflare en un declaración en su sitio web, en la que expresaron su intención de mantener Internet seguro para los creadores de contenido, evitando que los datos de los sitios web de sus clientes puedan recopilarse y usarse para entrenar IA.
Como usted indicó, esta es una herramienta de «un solo clic» y está disponible para todos los clientes de Cloudflare, incluidos aquellos en el nivel gratuito del servicio, como la aplicación 1.1.1.1 o su plataforma SASE & SSE.
Para activarlo, simplemente ingresa “Bots” en el menú “Seguridad” de tu servicio. Luego, los usuarios deben habilitar la opción «AI Scrapers and Crawlers», que comenzará a bloquear los robots que extraen contenido para aplicaciones de IA como el entrenamiento de modelos.
, Cloudflare explica que esta función se actualizará automáticamente para incluir nuevos rastros. de robots infractores que han sido identificados como «poderosos rastreadores web para el entrenamiento de modelos». Esto se hará analizando el tráfico en su red, lo que le dará a la empresa una comprensión «completa» de todas las actividades de seguimiento de IA.
Junto con la nueva función, la empresa también ha compartido ciertos datos registrados en su plataforma. implica el uso de robots para realizar ‘web scraping’.
Por ello, señala que, según su análisis, el robot más utilizado en su red es Bytespider de ByteDance -matriz de TikTok-, Amazonbot de Amazon, ClaudeBot de Claude y GPTBot de OpenAI. Entre ellos, el robot Bytespider intentó acceder al 40,40% de los sitios web de los clientes de Cloudflare.
Seguido de cerca por GPTBot, que visitó el 35,46% de los sitios web para realizar extracción de datos. Por su parte, ClaudeBot impulsa el 11,17% de los sitios web que visita.
Sin embargo, la compañía advierte que a pesar de la actividad del bot, muchos clientes «pueden no ser conscientes de que los rastreadores de IA más comunes están rastreando activamente sus sitios. El 2,98% de estos sitios han tomado medidas para bloquear estas solicitudes.
. Durante este tiempo, Cloudflare asegura que continuará trabajando para ayudar a mantener Internet como un lugar donde los creadores de contenido «pueden crecer». y mantener el control total del tejido las imágenes se utilizan para entrenar o hacer inferencias con su contenido.»
Este tipo de iniciativas también las están llevando a cabo otras plataformas, como Reddit, que anunció recientemente su intención de actualizar su Protocolo de exclusión de robots (archivo robots.txt) para bloquear el acceso de «robots» automatizados a sus datos públicos y así evitar el llamado rastreo.