MADRID, 1 de julio (Portaltic/EP) –
Amazon Web Services (AWS) anunció que ha abierto una investigación sobre Perplexity – utilizando sus servidores – para averiguar si la empresa realiza técnicas de «web scraping» para entrenar modelos de inteligencia artificial (IA) o no
También conocido como recopilación de datos. el proceso de recopilar el contenido de las páginas web utilizando software que extrae el código HTML de estas páginas web para filtrar información y almacenarla, en comparación con el proceso automatizado de copiar y pegar.
Robb Knight y el desarrollador Wired descubrieron recientemente que la startup de búsqueda de IA Perplexity violó los protocolos de exclusión de bots en varios sitios web e implementó esta técnica para entrenar sus modelos de IA.
Este protocolo cumple con el estándar web de colocar un archivo de texto sin formato (robots.txt) en un dominio para indicar a qué páginas no deben acceder robots y rastreadores, como ha explicado el medio.
A partir de estas acusaciones, Amazon Web Services ha abierto una investigación para determinar cuál de los Perplexity utiliza AWS para entrenar su IA. está violando las regulaciones y realizando «eliminaciones» en sitios que está tratando de bloquear.
Esto fue confirmado a Wired por alguien, dijo un portavoz de AWS, quien lo reiteró en su informe. términos, prohíbe a los clientes utilizar sus servicios para actividades ilegales y son responsables de cumplir con sus términos «y todas las leyes aplicables».
La startup señala que Perplexity «respeta los documentos robots.txt». y los servicios que controla «no realizan un seguimiento de una manera que viole los Términos de servicio de AWS», según la portavoz Sara Platnick.
Sin embargo, esto explica que «bot» ignore el archivo robots.txt cuando los usuarios ingresan una URL en su consulta, un caso de uso «poco frecuente». «Cuando un usuario ingresa una URL específica, esto no activa un rastreo», sino que «el agente actúa en nombre del usuario para recuperar la URL. Esto se comporta igual que cuando el usuario «Fui a una página y copié el texto de «El artículo y luego lo pegué en el sistema», dijo.
En este sentido, Wired señala que según la descripción del lenguaje del transmisor, confirmó que las investigaciones que realizó fueron honestas y que su ‘chatbot’ omitió los archivos robots.txt en algunos casos para recopilar información de forma no autorizada.