Logotipo horizontal de Diego C Martín colores invertidos, blanco y naranja para findo negro

El último modelo de IA de AI21 Labs muestra una comprensión contextual excepcional

Categorías:  Autor: Diego C Martin 
img-1

– La industria de la IA avanza hacia modelos de IA generativos con contextos más largos
– AI21 Labs lanza Jamba, un modelo generativo con una ventana de contexto más grande
– Jamba utiliza una combinación de transformadores y modelos de espacio de estados para mejorar la eficiencia y el rendimiento.

La industria de la IA está cambiando hacia modelos de IA generativa con ventanas de contexto más grandes, pero estos modelos suelen ser computacionalmente intensivos. O Dagan, líder de producto en la startup de IA AI21 Labs, cree que este no tiene por qué ser el caso y la compañía está lanzando un modelo generativo llamado Jamba para demostrarlo. Las ventanas de contexto se refieren a los datos de entrada que un modelo considera antes de generar resultados, con ventanas de contexto más grandes que permiten una mejor comprensión y flujo de datos.

Jamba, entrenado con una combinación de datos públicos y propietarios, puede generar texto en varios idiomas y manejar hasta 140.000 tokens mientras se ejecuta en una sola GPU con al menos 80 GB de memoria. Esta capacidad permite a Jamba generar texto equivalente a alrededor de 105.000 palabras o 210 páginas, lo que lo hace adecuado para diversas tareas, como escribir y analizar texto. Por el contrario, Llama 2 de Meta tiene una ventana de contexto más pequeña de 32.000 tokens pero requiere menos memoria GPU para ejecutarse.

Lo que distingue a Jamba es su combinación única de dos arquitecturas de modelos: transformadores y modelos de espacio de estados (SSM). Los transformadores son conocidos por sus complejas tareas de razonamiento y mecanismo de atención, mientras que los SSM ofrecen una arquitectura computacionalmente más eficiente para manejar largas secuencias de datos. Al incorporar Mamba, un modelo SSM de código abierto, Jamba ofrece tres veces más rendimiento en contextos largos en comparación con modelos basados ​​en transformadores de tamaños similares.

Aunque Jamba se ha publicado bajo una licencia de código abierto, no está destinado a uso comercial ya que carece de salvaguardias contra la generación de texto tóxico o contra posibles sesgos. Sin embargo, Dagan cree que Jamba muestra el potencial de la arquitectura SSM y anticipa mayores mejoras en el rendimiento con ajustes adicionales al modelo.

Enlace fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Artículos de la misma categoría

crossmenu
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram