Logotipo horizontal de Diego C Martín colores invertidos, blanco y naranja para findo negro

Cómo Gemini Pro 1.5 de Google está mejorando su capacidad auditiva: qué significa esto para usted

Categorías:  Autor: Diego C Martin 
img-1

– Google ha actualizado su modelo de IA Gemini Pro 1.5 para incluir la capacidad de escuchar archivos de audio y vídeo y proporcionar información sin una transcripción escrita.
– La actualización permite a Gemini Pro 1.5 procesar contenido de audio y video, generar transcripciones para videoclips y encontrar momentos específicos dentro de los archivos.
– Actualmente, la actualización solo está disponible a través del panel de desarrolladores de Google Cloud, VertexAI, y está dirigida principalmente a desarrolladores, empresas e investigadores.

Google ha mejorado su modelo de inteligencia artificial Gemini Pro 1.5 para incluir la capacidad de escuchar el contenido de un archivo de audio o vídeo. Esta actualización permite al modelo escuchar los clips cargados y proporcionar información sin la necesidad de una transcripción escrita. La familia de modelos Gemini ha sido entrenada en varias formas de datos simultáneamente, incluidos audio, video, texto y código, lo que permite al modelo procesar videos y generar transcripciones para videoclips.

La última actualización de Gemini Pro 1.5 incluye una ventana de contexto de un millón de tokens y la capacidad de procesar sonido desde archivos de audio. El modelo puede identificar momentos clave o menciones específicas en podcasts o audios adjuntos a archivos de vídeo. Esta actualización forma parte del nivel medio de la familia Gemini y ofrece capacidades avanzadas en comparación con la versión Ultra. Actualmente, se puede acceder a Gemini Pro a través del panel de desarrolladores de Google Cloud, VertexAI, para desarrolladores, empresas e investigadores.

Google también anunció actualizaciones del modelo de imagen DeepMind AI Imagen 2, que impulsa las capacidades de generación de imágenes de Gemini. Las actualizaciones incluyen funciones de pintura y mantenimiento que permiten a los usuarios eliminar o agregar elementos de las imágenes generadas. Google planea integrar respuestas de IA en Gemini y otras plataformas con la Búsqueda de Google para garantizar información actualizada.

En general, Google se centra en crear más modelos multimodales que puedan comprender varios tipos de entrada más allá del texto. Los avances en Gemini Pro 1.5 e Imagen 2 demuestran el compromiso de la empresa con la innovación en inteligencia artificial y tecnología de aprendizaje automático.

Enlace fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Artículos de la misma categoría

crossmenu
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram