Logotipo horizontal de Diego C Martín colores invertidos, blanco y naranja para findo negro

Modelo visión-lenguaje Idefics2 lanzado por Hugging Face

Categorías:  Autor: Diego C Martin 
img-1

1. Hugging Face lanza Idefics2, un modelo versátil capaz de comprender y generar respuestas de texto basadas en imágenes y textos.
2. Idefics2 supera a su predecesor con ocho mil millones de parámetros y capacidades mejoradas de reconocimiento óptico de caracteres, compitiendo con modelos más grandes en puntos de referencia de respuesta visual a preguntas.
3. Idefics2 se integra con Transformers, ofrece modelos de ajuste fino en Hugging Face Hub e introduce conjuntos de datos de entrenamiento innovadores para el entrenamiento conversacional.

Hugging Face ha presentado Idefics2, un modelo versátil que puede comprender y generar respuestas de texto basadas tanto en imágenes como en textos. Con ocho mil millones de parámetros y una licencia abierta, el modelo supera a su predecesor, Idefics1, en capacidades de reconocimiento óptico de caracteres (OCR) y funciona bien en puntos de referencia de respuesta visual a preguntas en comparación con modelos más grandes como LLava-Next-34B y MM1-30B-chat. El modelo se integra perfectamente con Transformers de Hugging Face, lo que facilita el ajuste para diversas aplicaciones multimodales.

Idefics2 se destaca por su enfoque de capacitación, que utiliza conjuntos de datos disponibles abiertamente y un conjunto de datos de ajuste único llamado ‘The Cauldron’ para mejorar la capacitación conversacional. El modelo mantiene resoluciones y relaciones de aspecto nativas en la manipulación de imágenes y destaca en la transcripción de contenido textual de imágenes y documentos. Su arquitectura incluye capacidades avanzadas de OCR y características innovadoras como la agrupación de Perceiver aprendida y la proyección en modalidad MLP.

El avance en los modelos de visión y lenguaje con Idefics2 abre oportunidades para explorar interacciones multimodales y crear sistemas de inteligencia artificial con conciencia contextual. Hugging Face ofrece un tutorial detallado de ajuste para entusiastas e investigadores interesados ​​en aprovechar las capacidades del modelo. Este desarrollo significa el potencial de combinar datos visuales y textuales para sistemas sofisticados de IA.

Para aquellos interesados ​​en aprender más sobre IA y big data, se recomienda la AI & Big Data Expo, celebrada en Ámsterdam, California y Londres. El evento cubre una variedad de temas, que incluyen inteligencia artificial, evaluación comparativa, modelos de visión y lenguaje y más. Además, consulte otros próximos eventos y seminarios web de tecnología empresarial organizados por TechForge para obtener más información y oportunidades de establecer contactos.

Enlace fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Artículos de la misma categoría

crossmenu
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram