La nueva IA de compresión de Google reduce drásticamente el uso de memoria y al mismo tiempo aumenta silenciosamente el rendimiento en cargas de trabajo y entornos de hardware modernos.

Google TurboQuant reduce la presión de la memoria mientras mantiene la precisión en cargas de trabajo exigentes
La compresión vectorial alcanza nuevos niveles de eficiencia sin necesidad de formación adicional
Las limitaciones de la caché de valores-clave son el núcleo de los límites de rendimiento de los sistemas de IA

El modelo de lenguaje grande (LLM) depende en gran medida de estructuras de memoria interna que almacenan datos intermedios para una rápida reutilización durante el procesamiento.

Uno de los componentes más importantes es la caché de valores-clave, descrita como una “hoja de trucos digital de alta velocidad” que evita cálculos repetidos.

Este proceso mejora la capacidad de respuesta, pero también plantea un cuello de botella importante porque los vectores de alta dimensión consumen recursos de memoria considerables.

El artículo continúa a continuación.

Restricciones de memoria y presión de escala

A medida que los modelos escalan, estas demandas de memoria se vuelven cada vez más difíciles de administrar sin comprometer la velocidad o la accesibilidad en las implementaciones LLM modernas.

Los enfoques tradicionales intentan reducir esta carga mediante la cuantificación, un método que restringe la precisión numérica.

Sin embargo, estas técnicas a menudo introducen compensaciones, en particular una calidad de salida reducida o una sobrecarga de memoria adicional debido a las constantes almacenadas.

Esta tensión entre eficiencia y precisión sigue sin resolverse en muchos sistemas existentes que dependen de herramientas de inteligencia artificial para el procesamiento a gran escala.

TurboQuant de Google presenta un proceso de dos etapas destinado a abordar estas limitaciones de larga data

La primera etapa se basa en la cuantificación polar, que convierte vectores de coordenadas cartesianas estándar a representación polar.

En lugar de almacenar múltiples elementos direccionales, el sistema condensa la información en valores de radio y ángulo, creando una taquigrafía compacta, reduciendo la necesidad de pasos de normalización repetidos y limitando los gastos generales asociados típicamente con los métodos de calibración convencionales.

La segunda etapa aplica el Johnson-Lindenstrass o QJL cuantificado, que actúa como una capa de corrección.

Aunque PolarQuant maneja la mayor parte de la compresión, puede dejar pequeños errores residuales, porque QJL reduce cada componente del vector a un solo bit, ya sea positivo o negativo, preservando al mismo tiempo las correlaciones esenciales entre los puntos de datos.

Este paso adicional refina las puntuaciones de atención, que determinan cómo los modelos priorizan la información durante el procesamiento.

Según las pruebas informadas, TurboQuant supera varios puntos de referencia a largo plazo utilizando modelos abiertos.

El sistema reduce el uso de la memoria caché de valores-clave en un factor de seis y, al mismo tiempo, mantiene resultados consistentes en sentido descendente.

Esto permite la cuantificación de solo tres bits sin necesidad de volver a entrenar, lo que sugiere compatibilidad con las arquitecturas de modelos existentes.

Los resultados antes mencionados también incluyen mejoras en la velocidad de procesamiento, con cálculos de atención que se ejecutan ocho veces más rápido que las operaciones estándar de 32 bits en hardware de alta gama.

Estos resultados indican que la compresión no necesariamente degrada el rendimiento en condiciones controladas, aunque dichos resultados dependen del diseño de referencia y del alcance de la evaluación.

Este sistema también puede reducir los costos operativos al reducir las demandas de memoria, lo que facilita la implementación de modelos en dispositivos restringidos donde los recursos de procesamiento son limitados.

Al mismo tiempo, los recursos liberados se pueden redirigir a la ejecución de modelos más complejos en lugar de reducir la demanda de infraestructura.

Aunque los resultados informados parecen ser consistentes en múltiples experimentos, están sujetos a condiciones experimentales específicas.

Un mayor impacto dependerá de las implementaciones en el mundo real, donde la carga de trabajo y la variabilidad de la arquitectura pueden producir resultados diferentes.

Siga TechRadar en Google News Y Agréganos como fuente preferida Recibe noticias, reseñas y opiniones de nuestros expertos en tu feed. ¡No olvides hacer clic en el botón de seguir!

Y por supuesto que puedes Siga TechRadar en TikTok Reciba nuestras actualizaciones periódicas en forma de noticias, reseñas, unboxing y videos. WhatsApp muy

Enlace de origen

Related Stories

Los chips Nvidia autodestructivos de 2.000 dólares pronto podrían alimentar a decenas de miles de centros de datos con energía solar escondidos en farolas

Otro problema importante de seguridad de Linux descubierto: la nueva falla de Fragnesia permite a los atacantes ejecutar código malicioso como root

Fortnite Server Down : calendrier de mise à jour v40.40, heure et région de réinitialisation du serveur et à quoi s’attendre du patch du chapitre 7, partie 2

You may have missed

Los chips Nvidia autodestructivos de 2.000 dólares pronto podrían alimentar a decenas de miles de centros de datos con energía solar escondidos en farolas

La tentative de birdie de Bryson DeChambeau tourne horriblement mal alors que la star de LIV Golf vit un début cauchemardesque pour le championnat PGA

El bateador de pruebas de Australia, Marcus North, explica su decisión de convertirse en seleccionador de Inglaterra

Derniers messages inquiétants envoyés par un comptable new-yorkais tué lors d’un voyage d’anniversaire en Jamaïque avec sa femme à une personne d’intérêt “Appelez la police… C’est une maison rose”