1. Gemma es una familia de modelos de pesos abiertos para que los desarrolladores experimenten, adapten y produzcan en Google Cloud utilizando PyTorch y JAX.
2. Los modelos de Gemma se pueden ejecutar en varias plataformas, incluidas computadoras portátiles, estaciones de trabajo, Vertex AI y GKE, utilizando GPU en la nube o TPU en la nube para entrenamiento, ajuste e inferencia.
3. Los modelos Gemma, como Gemma 2B y Gemma 7B, tienen arquitecturas diferentes y fueron entrenados previamente con 2 billones y 6 billones de tokens respectivamente, utilizando incrustaciones posicionales rotativas.
A principios de este año, Google presentó Gemma, una familia de modelos de pesos abiertos diseñada para permitir a los desarrolladores experimentar, adaptar e implementar fácilmente en Google Cloud. Los modelos de Gemma se pueden ejecutar en varias plataformas, incluidas computadoras portátiles, estaciones de trabajo, Vertex AI y GKE, utilizando GPU o TPU en la nube con herramientas como PyTorch, JAX, vLLM, HuggingFace TGI y TensorRT LLM.
Las pruebas de referencia han demostrado una eficiencia de entrenamiento hasta 3 veces mayor para los modelos Gemma que utilizan Cloud TPU v5e en comparación con el rendimiento básico de Llama-2. Recientemente, JetStream se lanzó como un motor de inferencia rentable y de alto rendimiento, lo que demuestra una ganancia 3 veces mayor en eficiencia para la inferencia LLM cuando se utilizan modelos Gemma.
La familia Gemma consta de dos variantes, Gemma 2B y Gemma 7B, con diferentes arquitecturas y estrategias de preentrenamiento que utilizan billones de tokens. Gemma 2B emplea atención de consultas múltiples para reducir los requisitos de ancho de banda de memoria, lo que puede resultar ventajoso para escenarios de inferencia en el dispositivo.
El rendimiento de la capacitación para los modelos Gemma se evalúa en función de la utilización efectiva de FLOP del modelo (EMFU) y el rendimiento relativo por dólar, y la capacitación previa se realiza utilizando Cloud TPU v5e. Los modelos Gemma se probaron en Cloud TPU v5e y Cloud TPU v5p, los TPU más rentables y potentes disponibles, respectivamente, lo que demuestra su eficiencia y rendimiento en el entrenamiento.
En general, los modelos Gemma muestran resultados prometedores en el rendimiento de entrenamiento e inferencia en los aceleradores de Google Cloud, con espacio para una mayor evolución y mejora a través de contribuciones de la comunidad y esfuerzos de desarrollo continuos. Los detalles arquitectónicos de los modelos Gemma, como el uso de incrustaciones posicionales rotativas y diferentes mecanismos de atención, contribuyen a su eficiencia y eficacia en diversos escenarios.