- Google TurboQuant reduce la presión de la memoria mientras mantiene la precisión en cargas de trabajo exigentes
- La compresión vectorial alcanza nuevos niveles de eficiencia sin necesidad de formación adicional
- Las limitaciones de la caché de valores-clave son el núcleo de los límites de rendimiento de los sistemas de IA
El modelo de lenguaje grande (LLM) depende en gran medida de estructuras de memoria interna que almacenan datos intermedios para una rápida reutilización durante el procesamiento.
Uno de los componentes más importantes es la caché de valores-clave, descrita como una “hoja de trucos digital de alta velocidad” que evita cálculos repetidos.
Este proceso mejora la capacidad de respuesta, pero también plantea un cuello de botella importante porque los vectores de alta dimensión consumen recursos de memoria considerables.
El artículo continúa a continuación.
Restricciones de memoria y presión de escala
A medida que los modelos escalan, estas demandas de memoria se vuelven cada vez más difíciles de administrar sin comprometer la velocidad o la accesibilidad en las implementaciones LLM modernas.
Los enfoques tradicionales intentan reducir esta carga mediante la cuantificación, un método que restringe la precisión numérica.
Sin embargo, estas técnicas a menudo introducen compensaciones, en particular una calidad de salida reducida o una sobrecarga de memoria adicional debido a las constantes almacenadas.
Esta tensión entre eficiencia y precisión sigue sin resolverse en muchos sistemas existentes que dependen de herramientas de inteligencia artificial para el procesamiento a gran escala.
TurboQuant de Google presenta un proceso de dos etapas destinado a abordar estas limitaciones de larga data
La primera etapa se basa en la cuantificación polar, que convierte vectores de coordenadas cartesianas estándar a representación polar.
En lugar de almacenar múltiples elementos direccionales, el sistema condensa la información en valores de radio y ángulo, creando una taquigrafía compacta, reduciendo la necesidad de pasos de normalización repetidos y limitando los gastos generales asociados típicamente con los métodos de calibración convencionales.
La segunda etapa aplica el Johnson-Lindenstrass o QJL cuantificado, que actúa como una capa de corrección.
Aunque PolarQuant maneja la mayor parte de la compresión, puede dejar pequeños errores residuales, porque QJL reduce cada componente del vector a un solo bit, ya sea positivo o negativo, preservando al mismo tiempo las correlaciones esenciales entre los puntos de datos.
Este paso adicional refina las puntuaciones de atención, que determinan cómo los modelos priorizan la información durante el procesamiento.
Según las pruebas informadas, TurboQuant supera varios puntos de referencia a largo plazo utilizando modelos abiertos.
El sistema reduce el uso de la memoria caché de valores-clave en un factor de seis y, al mismo tiempo, mantiene resultados consistentes en sentido descendente.
Esto permite la cuantificación de solo tres bits sin necesidad de volver a entrenar, lo que sugiere compatibilidad con las arquitecturas de modelos existentes.
Los resultados antes mencionados también incluyen mejoras en la velocidad de procesamiento, con cálculos de atención que se ejecutan ocho veces más rápido que las operaciones estándar de 32 bits en hardware de alta gama.
Estos resultados indican que la compresión no necesariamente degrada el rendimiento en condiciones controladas, aunque dichos resultados dependen del diseño de referencia y del alcance de la evaluación.
Este sistema también puede reducir los costos operativos al reducir las demandas de memoria, lo que facilita la implementación de modelos en dispositivos restringidos donde los recursos de procesamiento son limitados.
Al mismo tiempo, los recursos liberados se pueden redirigir a la ejecución de modelos más complejos en lugar de reducir la demanda de infraestructura.
Aunque los resultados informados parecen ser consistentes en múltiples experimentos, están sujetos a condiciones experimentales específicas.
Un mayor impacto dependerá de las implementaciones en el mundo real, donde la carga de trabajo y la variabilidad de la arquitectura pueden producir resultados diferentes.
Siga TechRadar en Google News Y Agréganos como fuente preferida Recibe noticias, reseñas y opiniones de nuestros expertos en tu feed. ¡No olvides hacer clic en el botón de seguir!
Y por supuesto que puedes Siga TechRadar en TikTok Reciba nuestras actualizaciones periódicas en forma de noticias, reseñas, unboxing y videos. WhatsApp muy