Modelo visión-lenguaje Idefics2 lanzado por Hugging Face

Categorías: IA Autor: Diego C Martin

1. Hugging Face lanza Idefics2, un modelo versátil capaz de comprender y generar respuestas de texto basadas en imágenes y textos.
2. Idefics2 supera a su predecesor con ocho mil millones de parámetros y capacidades mejoradas de reconocimiento óptico de caracteres, compitiendo con modelos más grandes en puntos de referencia de respuesta visual a preguntas.
3. Idefics2 se integra con Transformers, ofrece modelos de ajuste fino en Hugging Face Hub e introduce conjuntos de datos de entrenamiento innovadores para el entrenamiento conversacional.

Hugging Face ha presentado Idefics2, un modelo versátil que puede comprender y generar respuestas de texto basadas tanto en imágenes como en textos. Con ocho mil millones de parámetros y una licencia abierta, el modelo supera a su predecesor, Idefics1, en capacidades de reconocimiento óptico de caracteres (OCR) y funciona bien en puntos de referencia de respuesta visual a preguntas en comparación con modelos más grandes como LLava-Next-34B y MM1-30B-chat. El modelo se integra perfectamente con Transformers de Hugging Face, lo que facilita el ajuste para diversas aplicaciones multimodales.

Idefics2 se destaca por su enfoque de capacitación, que utiliza conjuntos de datos disponibles abiertamente y un conjunto de datos de ajuste único llamado ‘The Cauldron’ para mejorar la capacitación conversacional. El modelo mantiene resoluciones y relaciones de aspecto nativas en la manipulación de imágenes y destaca en la transcripción de contenido textual de imágenes y documentos. Su arquitectura incluye capacidades avanzadas de OCR y características innovadoras como la agrupación de Perceiver aprendida y la proyección en modalidad MLP.

El avance en los modelos de visión y lenguaje con Idefics2 abre oportunidades para explorar interacciones multimodales y crear sistemas de inteligencia artificial con conciencia contextual. Hugging Face ofrece un tutorial detallado de ajuste para entusiastas e investigadores interesados en aprovechar las capacidades del modelo. Este desarrollo significa el potencial de combinar datos visuales y textuales para sistemas sofisticados de IA.

Para aquellos interesados en aprender más sobre IA y big data, se recomienda la AI & Big Data Expo, celebrada en Ámsterdam, California y Londres. El evento cubre una variedad de temas, que incluyen inteligencia artificial, evaluación comparativa, modelos de visión y lenguaje y más. Además, consulte otros próximos eventos y seminarios web de tecnología empresarial organizados por TechForge para obtener más información y oportunidades de establecer contactos.

Enlace fuente

Deja una respuesta Cancelar la respuesta

Artículos de la misma categoría

Garry Tan de Y Combinator aboga por la regulación de la IA y advierte contra los monopolios en la industria

¿Para qué se pueden utilizar las descripciones generales de IA de Google?

Miriam Vogel destaca la importancia de la IA ética para las mujeres en el campo

Google Partner

Insignia que demuestra que Diego C Martin es Partner Oficial de Google

Diego C Martín. 2022

Legal