1. Los LLM se basan en datos de capacitación que pueden quedar obsoletos rápidamente y pueden no incluir datos relevantes específicos del dominio.
2. Volver a capacitar o perfeccionar los LLM para obtener datos nuevos y específicos de un dominio puede resultar costoso y complejo.
3. RAG proporciona a los LLM acceso a datos de dominios específicos sin necesidad de volver a capacitarse, lo que reduce las alucinaciones y permite que las aplicaciones proporcionen información verificable.
Los LLM dependen de sus datos de capacitación, que pueden quedar obsoletos y carecer de información relevante para aplicaciones específicas. Volver a capacitar o perfeccionar los LLM para incorporar datos nuevos y específicos del dominio puede resultar costoso y complejo. Sin embargo, RAG proporciona acceso a dichos datos sin necesidad de capacitación o ajustes, guiando a los LLM hacia respuestas objetivas y reduciendo las alucinaciones, lo que en última instancia permite que las aplicaciones proporcionen material fuente verificable por humanos.
La IA generativa ha introducido nuevos requisitos para atender a los LLM, procesar datos no estructurados y recuperar información. Los clientes que buscan construir una infraestructura de IA para aplicaciones RAG pueden optar por acceder a plataformas especializadas como Vertex AI o administrar su propia infraestructura en plataformas como GKE mientras utilizan marcos y modelos de código abierto. Tomar decisiones clave, como seleccionar marcos para servir modelos y elegir formas de máquinas para la inferencia, es crucial cuando se construye una plataforma de IA desde cero.
Se desarrolló una solución de inicio rápido y una arquitectura de referencia para aplicaciones RAG en GKE, Cloud SQL y marcos como Ray, LangChain y Hugging Face para ayudar a los clientes a acelerar su viaje hacia la producción. Los beneficios de implementar RAG en GKE y Cloud SQL incluyen una implementación optimizada, una configuración sencilla de los recursos necesarios y acceso a marcos de IA como Ray y Hugging Face.
La aplicación RAG de extremo a extremo y la arquitectura de referencia incluyen la configuración de un proyecto de Google Cloud con los requisitos previos necesarios, la implementación de marcos de IA en GKE, la generación de incorporaciones y el llenado de instancias de Cloud SQL, y la implementación de una aplicación de chatbot RAG basada en web. Esta solución tiene como objetivo ayudar a los clientes a comenzar rápidamente con las aplicaciones RAG e implementar las mejores prácticas desde el principio.