Washington, 14 de mayo. (Portaltic/EP) – Google apuesta todo por la inteligencia artificial (IA) con Gemini, la gran familia de modelos de lenguaje que allana el camino para el asistente inteligente universal que la compañía ha anticipado con el proyecto Astra, así como con agentes de tareas para los usuarios y nuevas capacidades que ofrece un pop-up de mayor tamaño en su modelo tope de gama, el Gemini 1.5 Pro. Google celebró esta nueva edición de su evento anual para desarrolladores Google I/O y señaló que Gemini está en el camino hacia la inteligencia artificial general, que es una IA orgánica y responsable que beneficia a todos día tras día.
Actualmente, el equipo modelo Gemini impulsa las funciones centrales de IA de los servicios de la empresa. Gemini 1.5 Pro, con una ventana emergente de hasta un millón de tokens, proporciona razonamiento, planificación y comprensión más avanzados. Gemini 1.5 Pro está disponible a partir de este martes para todos los desarrolladores de todo el mundo y, como parte de la suscripción Gemini Advanced, ampliará la ventana emergente a 2 millones de tokens para fin de año hoy, disponible para los desarrolladores por primera vez en una vista previa privada.
Con la ayuda de Google DeepMind, la línea de modelos crece con una nueva incorporación: Gemini 1.5 Flash, una versión más ligera de Pro optimizada para tareas comunes como resumir o traducir, que se puede probar en Google AI Studio y Vertex AI con un millón de tokens. . Gemini también admite agentes inteligentes, sistemas que demuestran habilidades de razonamiento, planificación y memoria para ayudar a los usuarios a realizar una variedad de tareas, con soporte para servicios de Google como Gmail o Chrome.
Asimismo, actualizó las herramientas de IA sintética incluidas en Generative Media, dedicadas a la creación de imágenes, música y vídeos, en las que ha estado trabajando durante los últimos meses. La imagen 3, en pruebas de laboratorio, ahora proporciona resultados más realistas, ya que genera imágenes muy detalladas y de alta calidad a partir de descripciones que los usuarios pueden completar con todos los estados de colores que quieran agregar. Por su parte, Music AI Sandbox ofrece un conjunto de herramientas de IA para crear canciones de calidad profesional, mientras que Veo crea vídeos de alta calidad (1080p) a partir de texto, imágenes y sugerencias de vídeo, al tiempo que integra efectos Combine con la función experimental VideoFx.
Google DeepMind también presentó una vista previa del Proyecto Astra, que la compañía espera que se convierta en un asistente verdaderamente universal en el futuro. En la demostración compartida, la empresa enfatizó que se trata de un asistente multimodal construido a partir de Gemini que es capaz de ver el mundo a través de la cámara del teléfono inteligente para que los usuarios puedan hacer preguntas sobre el tema. joya 2 Por otro lado, Google presentó la Unidad de Procesamiento Tensorial (TPU) de sexta generación, Trillim, que aumenta 4,7 veces el rendimiento computacional y se encarga de entrenar modelos como Gemini 1.5 Flash, Image 3 y también Gemma 2.
El equipo de modelos de lenguaje de código abierto de Google se ha ampliado con PaliGemma, un modelo de lenguaje visual para realizar tareas relacionadas con imágenes, subtítulos, cuestionarios visuales, comprensión de texto en imágenes, etc. Pronto se complementará con Gemma 2, una nueva generación que estará disponible con 27 mil millones de parámetros (27B), un tamaño que ofrece un rendimiento comparable al Llama 3 de Meta, que tiene 70 mil millones de parámetros. Está optimizado para ejecutarse en GPU Nvidia en una sola TPU en Vertex AI.