SAN FRANCISCO: mientras Apple y Google están convirtiendo sus asistentes de voz en chatbots, OpenAI está convirtiendo sus chatbots en asistentes de voz. El lunes, la startup de inteligencia artificial de San Francisco presentó una nueva versión de su chatbot ChatGPT capaz de recibir y responder a comandos de voz, imagen y vídeo. La compañía afirma que la nueva aplicación, basada en un sistema de inteligencia artificial llamado GPT-4o, procesa audio, imágenes y vídeo mucho más rápido que las versiones anteriores de la tecnología.
La aplicación está disponible de forma gratuita a partir del lunes, tanto en teléfonos inteligentes como en computadoras de escritorio. ‘Vislumbramos el futuro de la interacción entre nosotros y las máquinas’, dijo Mira Murati, directora de tecnología de la empresa. La nueva aplicación es parte de un esfuerzo más amplio para combinar chatbots conversacionales como ChatGPT con asistentes de voz como Google Assistant y Siri de Apple.
Mientras Google fusiona su chatbot Gemini con el Asistente de Google, Apple está preparando una nueva versión más conversacional de Siri. OpenAI dijo que compartirá gradualmente esta tecnología con los usuarios en las próximas semanas. Esta es la primera vez que ChatGPT se ofrece como aplicación de escritorio.
Anteriormente, la empresa ofrecía tecnologías similares en varios productos gratuitos y de pago. Ahora los han integrado en un único sistema disponible en todos sus productos. En un webcast, Murati y sus colegas demostraron una nueva aplicación que responde a comandos de voz conversacionales, utiliza una transmisión de video en vivo para analizar problemas matemáticos escritos en una hoja de papel y lee en voz alta las respuestas de una historia humorística que escribió en ese momento.
. Con el lanzamiento de ChatGPT a finales de 2022, OpenAI ha demostrado que las máquinas pueden procesar solicitudes de forma más parecida a los humanos. En respuesta a indicaciones de texto conversacionales, puede responder preguntas, escribir ensayos e incluso generar código de computadora.
ChatGPT no se rige por un conjunto de reglas. Adquirió sus habilidades analizando grandes cantidades de texto extraído de Internet, incluidos artículos, libros y registros de chat de Wikipedia. Los expertos han elogiado la tecnología como una alternativa viable a motores de búsqueda como Google y asistentes de voz como Siri.
Las versiones más nuevas de la tecnología también han aprendido del audio, las imágenes y el vídeo. Los investigadores llaman a esto IA multimodal. Básicamente, empresas como OpenAI han comenzado a combinar chatbots con generadores de imágenes, audio y video de IA.
(El New York Times demandó a OpenAI y su socio Microsoft en diciembre, alegando infracción de derechos de autor sobre contenido de noticias relacionado con sistemas de inteligencia artificial). A medida que las empresas incorporan chatbots y asistentes de voz, persisten muchos obstáculos. Debido a que los chatbots aprenden habilidades a partir de datos en Internet, son propensos a cometer errores.
A veces son puramente informativas, un fenómeno que los investigadores de IA llaman alucinaciones. Estos errores se transmiten al asistente de voz. Si bien los chatbots pueden producir un lenguaje atractivo, son menos hábiles para realizar acciones como programar reuniones o reservar boletos de avión.
Pero empresas como OpenAI están trabajando para convertirlos en agentes de IA que puedan manejar de manera confiable dichas tareas. OpenAI ofrecía anteriormente una versión de ChatGPT que era capaz de aceptar comandos y respuestas de voz. Pero es una combinación de tres tecnologías de IA diferentes: uno convierte voz en texto, otro genera una respuesta de texto y otro convierte ese texto en voz sintetizada.
La nueva aplicación se basa en una tecnología única de inteligencia artificial (GPT-4o) capaz de aceptar y generar texto, sonidos e imágenes. Eso significa que la tecnología es más eficiente y la empresa puede darse el lujo de ofrecerla a los usuarios de forma gratuita, afirmó Murati. Murati dijo en una entrevista con The Times que anteriormente todo este retraso se debía a que los tres modelos trabajaban juntos.
Quieres tener la experiencia que tenemos nosotros, donde podemos tener una conversación muy natural.