1. Gemma en GKE ahora admite TPU para optimizar el rendimiento de inferencia
2. JetStream es la pila de inferencia de TPU recomendada para la inferencia de LLM en las TPU de Google Cloud
3. GKE también admite GPU con marcos como vLLM y Text Generation Inference para ofrecer LLM.
Google Cloud ahora admite Gemma en GKE con TPU y GPU, lo que brinda a los usuarios opciones para optimizar el rendimiento de inferencia y ofrecer marcos para modelos de IA. Se recomienda JetStream para la inferencia de TPU, ya que ofrece rendimiento y latencia eficientes para la inferencia de LLM. Para los usuarios que prefieren aceleradores de GPU, los marcos vLLM, Text Generation Inference y TensorRT-LLM están disponibles para mejorar el rendimiento de servicio y optimizar el rendimiento de inferencia.
Gemma en GKE permite a los desarrolladores crear e implementar modelos de IA utilizando una plataforma autogestionada, versátil, rentable y de alto rendimiento. Con integraciones en los principales repositorios de modelos de IA y compatibilidad con Google Cloud GPU y Cloud TPU, GKE ofrece opciones flexibles de implementación y servicio para Gemma. Los usuarios pueden explorar tutoriales para comenzar a usar Gemma en GKE y aprovechar los diferentes marcos disponibles para optimizar el rendimiento de la inferencia según sus preferencias y necesidades. Google Cloud se compromete a brindar a los usuarios una variedad de opciones para entrenar y atender cargas de trabajo de IA de manera eficiente y efectiva en GKE.