– Microsoft lanzó Phi-3 Mini, un modelo de lenguaje diminuto como parte de su estrategia para desarrollar modelos de IA livianos.
– Phi-3 Mini ofrece los beneficios de ser más económico de ajustar, requerir menos procesamiento y ser capaz de ejecutarse en el dispositivo para tareas como resumir documentos.
– El modelo se entrenó utilizando datos sintéticos seleccionados, comenzando con un vocabulario limitado y ampliando gradualmente.
Microsoft lanzó Phi-3 Mini, un modelo de lenguaje pequeño como parte de su estrategia para desarrollar modelos de IA livianos y específicos para tareas. El método convencional de entrenar grandes modelos de lenguaje como GPT-4 requiere una gran cantidad de datos y recursos informáticos, con costos que superan los 21 millones de dólares y que tardan meses en completarse. Phi-3 Mini, con solo 3,8 mil millones de parámetros, está diseñado para tareas más simples, como resúmenes de documentos, extracción de información de informes y redacción de publicaciones en redes sociales.
El punto de referencia MMLU muestra que Phi-3 Mini supera a modelos más grandes como Mistral 7B y Gemma 7B. Microsoft planea lanzar modelos Phi más grandes, con parámetros de 7B a 14B, en un futuro próximo. Si bien los modelos más grandes como GPT-4 siguen siendo el estándar, los modelos más pequeños como Phi-3 Mini ofrecen ventajas como un ajuste rentable, menores requisitos informáticos e implementación en el dispositivo para una mayor privacidad y una latencia reducida.
El desarrollo de Phi-3 Mini surgió de dejar de depender únicamente de grandes cantidades de datos para el entrenamiento. Los investigadores de Microsoft seleccionaron conjuntos de datos sintéticos, comenzando con un vocabulario limitado de 3000 palabras, para entrenar un pequeño modelo de parámetros de 10 millones capaz de generar narrativas coherentes. Este enfoque llevó a la creación del Phi-3 Mini, que ofrece un rendimiento comparable al de modelos más grandes como el GPT-3.5 a un costo más asequible.
Con la aparición de modelos de IA más pequeños pero eficientes como Phi-3 Mini, la industria puede dejar de utilizar exclusivamente grandes LLM como GPT-4. Las soluciones futuras podrían implicar una combinación de modelos pesados para tareas complejas y modelos livianos para actividades más simples.