Profundice en Gemma ejecutándose en Google Kubernetes Engine

Categorías: IA Autor: Diego C Martin

1. Gemma en GKE ahora admite TPU para optimizar el rendimiento de inferencia
2. JetStream es la pila de inferencia de TPU recomendada para la inferencia de LLM en las TPU de Google Cloud
3. GKE también admite GPU con marcos como vLLM y Text Generation Inference para ofrecer LLM.

Google Cloud ahora admite Gemma en GKE con TPU y GPU, lo que brinda a los usuarios opciones para optimizar el rendimiento de inferencia y ofrecer marcos para modelos de IA. Se recomienda JetStream para la inferencia de TPU, ya que ofrece rendimiento y latencia eficientes para la inferencia de LLM. Para los usuarios que prefieren aceleradores de GPU, los marcos vLLM, Text Generation Inference y TensorRT-LLM están disponibles para mejorar el rendimiento de servicio y optimizar el rendimiento de inferencia.

Gemma en GKE permite a los desarrolladores crear e implementar modelos de IA utilizando una plataforma autogestionada, versátil, rentable y de alto rendimiento. Con integraciones en los principales repositorios de modelos de IA y compatibilidad con Google Cloud GPU y Cloud TPU, GKE ofrece opciones flexibles de implementación y servicio para Gemma. Los usuarios pueden explorar tutoriales para comenzar a usar Gemma en GKE y aprovechar los diferentes marcos disponibles para optimizar el rendimiento de la inferencia según sus preferencias y necesidades. Google Cloud se compromete a brindar a los usuarios una variedad de opciones para entrenar y atender cargas de trabajo de IA de manera eficiente y efectiva en GKE.

Enlace fuente

Deja una respuesta Cancelar la respuesta

Artículos de la misma categoría

Garry Tan de Y Combinator aboga por la regulación de la IA y advierte contra los monopolios en la industria

¿Para qué se pueden utilizar las descripciones generales de IA de Google?

Miriam Vogel destaca la importancia de la IA ética para las mujeres en el campo

Google Partner

Diego C Martín. 2022

Legal