Acelerar la inferencia de IA mediante las TPU y GPU de Google Cloud

Categorías: IA Autor: Diego C Martin

1. Clientes como Osmos están utilizando JetStream para cargas de trabajo de inferencia de LLM, aprovechando la infraestructura de inteligencia artificial de Google Cloud para la transformación y automatización de datos.
2. JetStream ofrece una base poderosa, rentable y de código abierto para la inferencia LLM, acelerando el desarrollo de aplicaciones de IA en el procesamiento del lenguaje natural.
3. MaxDiffusion proporciona inferencia de modelos de difusión de alto rendimiento para visión por computadora, con implementaciones en JAX para escalabilidad y personalización, logrando un rendimiento impresionante en TPU en la nube.

Osmos, una empresa especializada en la transformación de datos impulsada por IA, ha tenido éxito al utilizar JetStream para acelerar sus cargas de trabajo de inferencia LLM. Al utilizar Cloud TPU v5e de Google Cloud con MaxText, JAX y JetStream, Osmos pudo procesar y transformar de manera eficiente datos entrantes desordenados de clientes y socios comerciales, logrando resultados en horas en lugar de días. El director ejecutivo, Kirat Pandya, destaca la importancia de una infraestructura de IA escalable y de alto rendimiento para sus flujos de trabajo de IA de extremo a extremo.

JetStream proporciona a investigadores y desarrolladores una base rentable y de código abierto para la inferencia LLM, lo que abre nuevas posibilidades en el procesamiento del lenguaje natural. La plataforma tiene como objetivo acelerar el viaje de los profesionales de la IA y alentar a los principiantes a explorar el potencial de los LLM. Las personas interesadas pueden visitar el repositorio de GitHub para obtener más información sobre JetStream y comenzar sus proyectos de LLM, con soporte y desarrollo continuos proporcionados por el servicio de atención al cliente de Google Cloud.

Además de los LLM, MaxDiffusion ofrece inferencia de modelos de difusión de alto rendimiento para aplicaciones de visión por computadora. Esta colección de implementaciones de referencia de modelos de difusión de código abierto, escritas en JAX, proporciona componentes centrales como atención cruzada, convoluciones y carga de datos de imágenes. MaxDiffusion es adaptable y personalizable y está dirigido tanto a investigadores como a desarrolladores que buscan integrar capacidades de IA de vanguardia en sus aplicaciones. La implementación del nuevo modelo SDXL-Lightning ofrece un rendimiento impresionante, logrando 6 imágenes/s en Cloud TPU v5e-4 con escalabilidad de hasta 12 imágenes/s en Cloud TPU v5e-8.

Enlace fuente

Deja una respuesta Cancelar la respuesta

Artículos de la misma categoría

Garry Tan de Y Combinator aboga por la regulación de la IA y advierte contra los monopolios en la industria

¿Para qué se pueden utilizar las descripciones generales de IA de Google?

Miriam Vogel destaca la importancia de la IA ética para las mujeres en el campo

Google Partner

Insignia que demuestra que Diego C Martin es Partner Oficial de Google

Diego C Martín. 2022

Legal