Ya puedes cargar archivos de audio en Gemini: los transcribe y los examina

Imagina diferentes escenarios, combina elementos creativos, realiza ediciones precisas y mucho más.

Este contenido fue hecho con la asistencia de una inteligencia artificial y contó con la revisión del editor/periodista.

Los usuarios podrán convertir en texto grabaciones, examinarlas, condensar la información y obtener los conceptos principales.

Gemini, la IA de Google, ha lanzado una herramienta gratuita que resulta muy práctica: ahora es posible cargar archivos de audio y trabajar con ellos de forma directa dentro de la plataforma.

Con esta incorporación, los usuarios podrán transcribir audios, analizarlos, sintetizar contenidos, extraer ideas clave y mucho más, aprovechando la capacidad de la inteligencia artificial.

La información fue confirmada por Josh Woodward, vicepresidente de Google Labs y de Google Gemini, mediante su cuenta en X (antes Twitter), donde afirmó: “Problema resuelto: ya puedes subir cualquier archivo a @GeminiApp, incluida la funcionalidad más demandada: la compatibilidad con archivos de audio”.

Los invitamos a consultar: Apple presenta el iPhone 17 y mantiene los precios de sus versiones Pro a pesar de los aranceles.

Los usuarios pueden cargar archivos de audio en formato m4a. (Gemini)

Para subir un audio a Gemini y trabajar con él directamente mediante la IA, abre la app móvil de Gemini y sigue los siguientes pasos:

Actualmente, esta opción no está disponible en la versión de escritorio de Gemini, solo en la aplicación para dispositivos móviles.

La función aún no está habilitada en la web. (Gemini)

La reciente característica de Gemini, que permite subir archivos de audio y manejarlos en tiempo real, abre un amplio abanico de posibilidades tanto a nivel personal como profesional.

Se trata de una herramienta que utiliza la IA para transcribir, examinar y organizar información en cuestión de segundos, lo que reduce el tiempo invertido y mejora la eficiencia.

Por ejemplo, un estudiante puede grabar una clase y luego cargar el archivo en Gemini para obtener una transcripción completa.

A partir de ese texto, la IA puede generar un resumen con los puntos más relevantes, crear un esquema de estudio o incluso responder a preguntas específicas sobre el contenido de la lección, convirtiendo a Gemini en un asistente ideal para el aprendizaje.

Esta capacidad resulta muy valiosa para los estudiantes.

En el entorno laboral, la utilidad es igualmente evidente. Imagina una reunión grabada: al subirla a Gemini, obtienes una transcripción automática y la posibilidad de producir actas, resaltar decisiones tomadas y extraer las tareas asignadas a cada participante, lo que optimiza el tiempo y mejora la organización dentro de los equipos.

También es de gran ayuda para creadores de contenido, quienes pueden cargar entrevistas o notas de voz y transformarlas en artículos, guiones o publicaciones listas para editar.

Incluso profesionales de la salud, como terapeutas o médicos, pueden usar la herramienta para transcribir consultas (respetando la confidencialidad y normativas de privacidad) y generar informes clínicos de forma más rápida.

En la vida cotidiana, cualquiera puede aprovecharla para registrar ideas espontáneas, notas personales o recordatorios y después convertirlas en listas de tareas, mensajes o textos más estructurados.

Google incorporó una nueva herramienta de generación y edición de imágenes a Gemini. REUTERS/Dado Ruvic/Illustration/File Photo

Nano Banana es el nombre en clave de la última versión del modelo de edición y generación de imágenes de Google, oficialmente llamado Gemini 2.5 Flash Image. Desarrollado por Google DeepMind, este modelo está integrado en la app de Gemini y también está disponible para desarrolladores a través de Gemini API, Google AI Studio y Vertex AI.

“Eleva tus fotografías a otro nivel. Imagina diferentes escenarios, combina elementos creativos, realiza ediciones precisas y mucho más. Tu imaginación es el único límite”, señala Google.

Los usuarios pueden mezclar fotos, transferir el estilo, color o textura de un objeto a otro, así como editar fácilmente componentes concretos de una imagen usando únicamente instrucciones en lenguaje natural.

“Nano” hace referencia a la rapidez del modelo, que permite generar ediciones de imágenes en menos de diez segundos.

Mientras que “Banana” surgió por un error (bug) durante las pruebas iniciales, donde aparecían plátanos inesperados en las imágenes generadas, convirtiéndose en un detalle distintivo y divertido del lanzamiento.

Sobre el Autor

TRA Noticias

Te interesara ver

Sobre el Autor

TRA Noticias