– Google ha actualizado su modelo de IA Gemini Pro 1.5 para incluir la capacidad de escuchar archivos de audio y vídeo y proporcionar información sin una transcripción escrita.
– La actualización permite a Gemini Pro 1.5 procesar contenido de audio y video, generar transcripciones para videoclips y encontrar momentos específicos dentro de los archivos.
– Actualmente, la actualización solo está disponible a través del panel de desarrolladores de Google Cloud, VertexAI, y está dirigida principalmente a desarrolladores, empresas e investigadores.
Google ha mejorado su modelo de inteligencia artificial Gemini Pro 1.5 para incluir la capacidad de escuchar el contenido de un archivo de audio o vídeo. Esta actualización permite al modelo escuchar los clips cargados y proporcionar información sin la necesidad de una transcripción escrita. La familia de modelos Gemini ha sido entrenada en varias formas de datos simultáneamente, incluidos audio, video, texto y código, lo que permite al modelo procesar videos y generar transcripciones para videoclips.
La última actualización de Gemini Pro 1.5 incluye una ventana de contexto de un millón de tokens y la capacidad de procesar sonido desde archivos de audio. El modelo puede identificar momentos clave o menciones específicas en podcasts o audios adjuntos a archivos de vídeo. Esta actualización forma parte del nivel medio de la familia Gemini y ofrece capacidades avanzadas en comparación con la versión Ultra. Actualmente, se puede acceder a Gemini Pro a través del panel de desarrolladores de Google Cloud, VertexAI, para desarrolladores, empresas e investigadores.
Google también anunció actualizaciones del modelo de imagen DeepMind AI Imagen 2, que impulsa las capacidades de generación de imágenes de Gemini. Las actualizaciones incluyen funciones de pintura y mantenimiento que permiten a los usuarios eliminar o agregar elementos de las imágenes generadas. Google planea integrar respuestas de IA en Gemini y otras plataformas con la Búsqueda de Google para garantizar información actualizada.
En general, Google se centra en crear más modelos multimodales que puedan comprender varios tipos de entrada más allá del texto. Los avances en Gemini Pro 1.5 e Imagen 2 demuestran el compromiso de la empresa con la innovación en inteligencia artificial y tecnología de aprendizaje automático.