OpenAI presenta las capacidades de voz de GPT-4 Omni y son literalmente increíbles

Para generar una respuesta a una entrada de audio, se necesita una cantidad de tiempo similar al que requieren los humanos.

MADRID, 14 mayo. (Portal/EP) – OpenAI ha presentado el nuevo modelo de inteligencia artificial (IA) GPT-4o, que acepta cualquier combinación de texto, audio e imagen y puede responder a entradas de voz en sólo 232 milisegundos, una media de 320 milisegundos, similar al tiempo de respuesta humano. GPT-4o (donde ‘o’ significa ‘omni’) es un modelo de lenguaje que admite de forma nativa la modalidad cruzada, lo que significa que comprende y produce combinaciones de texto, audio y otras entradas e imágenes a un ritmo rápido, como el CTO.

explicado en la presentación. de OpenAI, Mira Muratyi. Para generar una respuesta a una entrada de audio, se necesita una cantidad de tiempo similar al que requieren los humanos.

Esto significa que puede responder en un mínimo de 232 milisegundos, aunque registró un tiempo medio de respuesta de 320 segundos, como pudieron comprobar los desarrolladores. Para la entrada de texto en inglés, el nuevo motor iguala el rendimiento del GPT-4 Turbo y ofrece una mejora significativa en la entrada de texto desde idiomas distintos del inglés, traducción en tiempo real, además de ser mucho más rápido y un 50% más económico. API, según aclaró.

En cuanto a OpenAI, la herramienta ha sido sometida a una serie de pruebas realizadas por expertos del famoso equipo rojo, lo que supone un paso hacia una interacción hombre-máquina mucho más natural. La empresa también comentó sobre la evolución de modelos anteriores para crear la versión GPT-4o. En primer lugar, destacó que a la fecha todavía es posible utilizar el “Modo de Voz” para chatear con ChatGPT con un retraso promedio de 2,8 segundos en el caso de la versión GPT-3.5 y 5,4 segundos en GPT-4.

Esto es posible porque se está ejecutando un proceso de tres modelos separados. El primero de ellos convierte audio a texto. Luego, el modelo GPT-3.5 o GPT-4 toma el texto y lo recrea para que un tercer modelo lo vuelva a convertir en audio.

Según el desarrollador, en este proceso GPT-4 perderá mucha información porque no puede observar tonos, diferentes altavoces o ruido ambiental. Tampoco puede producir risas, cantar canciones ni expresar emociones. Por este motivo, se ha propuesto entrenar un único modelo de principio a fin, es decir, que todas las entradas y salidas de texto, audio y voz sean procesadas por las mismas redes neuronales, que combinan todos estos métodos para proporcionar una retroalimentación más efectiva.

realidad. También aclaró que GPT-4o se desarrolló teniendo en cuenta la seguridad mediante el diseño a través de técnicas como el filtrado de datos; y para su lanzamiento pasó por una fase de prueba de diferentes versiones de la plantilla, retocadas y personalizadas para lograr mejores resultados. OpenAI también especifica que monitorea a más de 70 expertos en campos como la psicología y la desinformación, para identificar los riesgos introducidos o amplificados por los nuevos métodos agregados a este modelo.

Debido a que la entrada de voz y audio plantea nuevos riesgos, la compañía de tecnología solo permite la entrada y salida de texto e imágenes en su nuevo modelo por ahora. En las próximas semanas, la empresa tecnológica seguirá investigando la infraestructura técnica y de seguridad de GPT-4o para lanzar el método restante. GPT-4o se implementará de forma iterativa y es gratuito para los usuarios del método ChatGPT Plus.

En las próximas semanas también lanzará una nueva versión alfa del modo voz con GPT-4o en esta misma suscripción. Por su parte, los desarrolladores ahora pueden acceder a este modelo en la API para probar los modos texto e imagen.

Sobre el Autor

TRA Noticias

Te interesara ver

Sobre el Autor

TRA Noticias