Logotipo horizontal de Diego C Martín colores invertidos, blanco y naranja para findo negro

Familiarizarse con el índice SCaNN en AlloyDB

Categorías:  Autor: Diego C Martin 

– Las bases de datos vectoriales, como pgvector, han experimentado un aumento en popularidad para la búsqueda semántica y las experiencias de IA generativa. Los desarrolladores utilizan la búsqueda vectorial para diversas aplicaciones, incluidas recomendaciones de productos y mejora de chatbot.
– PostgreSQL es ampliamente utilizado por los desarrolladores y pgvector es una extensión popular para la búsqueda de vectores. Se introdujo la compatibilidad con el algoritmo HNSW, pero algunos clientes han informado problemas con el tiempo de creación del índice y el uso de la memoria.
– Google ha introducido el nuevo índice ScaNN para AlloyDB, que proporciona consultas vectoriales más rápidas, tiempos de creación de índices más rápidos y menor consumo de memoria en comparación con HNSW. Este índice está disponible en AlloyDB Omni y pronto estará en el servicio administrado AlloyDB para PostgreSQL.

Las bases de datos vectoriales, como pgvector, que es una popular extensión de PostgreSQL, han experimentado un aumento en popularidad durante el año pasado. Los desarrolladores utilizan estas bases de datos para tareas que van desde recomendaciones de productos hasta búsqueda de imágenes y mejora de chatbots impulsados ​​por inteligencia artificial con generación aumentada de recuperación. PostgreSQL, una base de datos operativa ampliamente utilizada, cuenta con una gran base de usuarios y la introducción de soporte para el algoritmo HNSW, que es un algoritmo basado en gráficos conocido por su rendimiento de consultas.

Si bien el algoritmo HNSW funciona bien para muchas cargas de trabajo vectoriales, algunos clientes han informado problemas con corpus grandes, tiempo de creación de índices, uso de memoria, actualizaciones en tiempo real y rendimiento de consultas. Para abordar estas preocupaciones, Google presentó el índice ScaNN para AlloyDB, aprovechando 12 años de investigación en algoritmos aproximados del vecino más cercano para ofrecer consultas hasta 4 veces más rápidas, tiempos de creación de índices 8 veces más rápidos y una menor huella de memoria en comparación con HNSW en PostgreSQL estándar.

La búsqueda aproximada del vecino más cercano (ANN) desempeña un papel crucial en la indexación de vectores, ya que ayuda a encontrar datos similares o relevantes de manera eficiente al sacrificar precisión por velocidad. Los algoritmos basados ​​en gráficos y en cuantificación de árboles son tipos comunes de índices ANN, y el HNSW de pgvector implementa un algoritmo de gráfico jerárquico. Si bien estos algoritmos funcionan bien, los algoritmos basados ​​en cuantificación de árboles son conocidos por su menor uso de memoria y tiempos de creación de índices más rápidos, lo que en última instancia mejora la escalabilidad de las consultas KNN. El índice ScaNN estará disponible pronto en AlloyDB Omni y el servicio administrado AlloyDB para PostgreSQL en Google Cloud.

Enlace fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Artículos de la misma categoría

crossmenu
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram