OpenAI ha transcrito un millón de horas de vídeos de YouTube para entrenar GPT

Fuentes consultadas por el NYT aseguraron que el equipo a cargo de Whisper incluye a Greg Brockman, presidente de OpenAI.

Nueva York, 6 abr (.).- OpenAI ha creado un programa para transcribir más de un millón de horas de vídeos de YouTube con fines de entrenamiento Modelo de generación de texto GPT -4, su modelo más avanzado abierto al público, según una información exclusiva del New York Times (NYT) publicada este sábado. El artículo afirma que OpenAI, una empresa sin fines de lucro, ha desarrollado un programa llamado ‘Whisper’ que extrae texto de más de un millón de horas de video para obtener datos de entrenamiento para modelos de generación de lenguaje, se llama LLM. Fuentes consultadas por el NYT aseguraron que el equipo a cargo de Whisper incluye a Greg Brockman, presidente de OpenAI.

La empresa ha tenido un debate interno sobre si la extracción de texto de vídeos alojados en la plataforma propiedad de Google (NASDAQ:GOOGL) viola los términos de servicio de la empresa. Según el artículo, OpenAI sintió que necesitaba más datos de entrenamiento en 2021 y discutió si obtenerlos de YouTube, podcasts o audiolibros. En una entrevista reciente, el director ejecutivo de YouTube, Neal Mohan, aseguró que si OpenAI utilizara vídeos de la plataforma para entrenar ‘Sora’, su modelo de generación de vídeos de la vida real, violaría las condiciones de servicio.

Los creadores de contenido llegan a YouTube con ciertas expectativas, incluido el cumplimiento de los términos de servicio. Nuestros términos permiten la extracción de cierto contenido, como títulos, nombres de canales o nombres de creadores, para facilitar la web abierta”, explicó Mohan. No se permite subir grabaciones o partes de videos.

‘Esta es una flagrante violación de nuestros términos de contenido’, añadió el funcionario. La portavoz de OpenAI, Lindsay Held, dijo en una respuesta exclusiva obtenida por The Verge que la compañía crea una base de datos única, utiliza múltiples fuentes disponibles públicamente y celebra acuerdos para obtener los datos. ¿No es pública?

Según fuentes consultadas por el diario, Google copia vídeos de YouTube para obtener texto para alimentar sus modelos de generación de texto, lo que violaría los derechos de los creadores que suben sus vídeos a la plataforma Esta Roca. Los derechos sobre el contenido utilizado para entrenar modelos de inteligencia artificial aún no están claramente definidos, y la competencia por los modelos de generación de contenido más realistas está traspasando los límites de la legalidad de los derechos de autor. El gigante tecnológico Meta, creador de Facebook (NASDAQ:META), debatió el año pasado si comprar la editorial Simon & Schuster para obtener acceso a sus documentos extensos, dependiendo del contenido de las reuniones entre ejecutivos de la empresa, abogados e ingenieros de los receptores.

El New York Times tuvo acceso.