MADRID, 8 de abril. (Portal/EP) – OpenAI, Meta y Google necesitan grandes cantidades de datos para entrenar los modelos de inteligencia artificial (IA) que encuentran en Internet, en servicios como YouTube, a riesgo de una posible infracción de derechos de autor que deben soportar. La carrera por entrenar el modelo de IA más potente está provocando que las empresas de tecnología busquen nuevas fuentes de datos, incluso eludiendo las políticas de servicios digitales que prohíben la práctica.
Un caso es el uso de vídeos de YouTube por parte de OpenAI, como informó el New York Times. Fuentes cercanas al debate interno compartieron que la empresa liderada por Sam Altman creó una herramienta llamada Whisper para copiar videos de la plataforma propiedad de Google. Se dice que las transcripciones se utilizaron para entrenar GPT-4, considerado uno de los modelos de lenguaje más avanzados disponibles en la actualidad.
Esta práctica iría en contra de las políticas de YouTube, como confirmó recientemente el CEO de YouTube, Neal Mohan, con respecto a la capacitación de otra IA OpenAI, Sora. Sora es un motor de IA sintético que genera videos realistas a partir de descripciones de texto. Según el Wall Street Journal, OpenAI habría utilizado vídeos de YouTube, aunque la directora de tecnología de la compañía, Mira Murati, no pudo confirmarlo y limitó los datos que utilizaron para la formación.
Sora son datos disponibles públicamente. y datos con licencia. Mohan explicó que se trata de un comportamiento abusivo porque los creadores de contenido que deciden publicar vídeos en YouTube esperan que su trabajo esté protegido por los términos de servicio.
Sin embargo, y según fuentes cercanas a las operaciones de Google, el propietario de YouTube también utiliza transcripciones de vídeos para entrenar sus modelos de IA, especialmente después del cambio en las condiciones de uso de la aplicación que lanzaron el año pasado y que quedó recogido en los mensajes internos que veían los usuarios. Edad. Meta es otra empresa de tecnología que desarrolla grandes modelos de lenguaje e inteligencia artificial.
En su caso, presuntamente utilizó Internet para recopilar grandes cantidades de datos que su modelo necesitaba, a pesar de que el contenido recopilado estaba protegido y sujeto a acciones legales, como lo demuestra el archivo de documentos internos a los que tiene acceso el citado medio. .