Ryzen AI Halo de AMD salió recientemente a la venta por $ 4,000, lo que generó un interesante debate sobre cómo se compara con la oferta DGX Spark de Nvidia, un poco más cara.
La configuración que ofrece Ryzen AI Halo ha estado en el mercado durante algunos meses, y aunque la mayoría de los OEM y proveedores empresariales ofrecen sabores y configuraciones similares, la empresa de memoria y almacenamiento Longsys, con sede en Shenzhen, ha ido un paso más allá.
El gigante del almacenamiento demostró una versión localizada de un modelo de IA con parámetros 397B que ejecuta su propia versión de Ryzen AI Halo, con la misma configuración Ryzen AI Max+ de 16 núcleos de 395 y 128 GB de RAM.
¿Cómo logró el Ryzen AI Max+ 395 ejecutar un modelo tan grande con solo 128 GB de RAM?
Aunque el modelo que se está ejecutando no se indica claramente, parece ser una versión personalizada derivada del Qwen 3.5 397B (A17B) de Alibaba, un modelo básico multimodal que utiliza un enfoque de mezcla de expertos (MoE), que convirtió al DeepSeek original en un fuerte rival.
Incluso si logra la cuantización INT4, los requisitos de memoria son mucho mayores que la memoria del dispositivo que realiza esta hazaña: una configuración unificada de 128 GB sólo tiene 96 GB de VRAM disponibles en la GPU, aproximadamente 200-250 GB de VRAM para ejecutar el modelo.
El ingrediente secreto es la configuración iSA y SPU personalizada recientemente presentada por Longsys, que brinda la capacidad de comprimir datos en tiempo real, una hazaña que, según la compañía, le permite colocar el doble de datos en unidades de almacenamiento de hasta 128 GB, utilizando una capa de almacenamiento en caché que reduce significativamente los requisitos de DRAM.
Este enfoque implica descargar a los especialistas involucrados en actividades activas no utilizadas en un búfer de almacenamiento grande y rápido en el que el chip de IA puede reiniciarlos cuando sea necesario.
En un comunicado de prensa, Longsys afirmó que su método apuntaba a “puntos débiles de MoE LLM”, como cálculos de parámetros grandes, expansión rápida de la caché KV y latencia de E/S que obstaculizan la eficiencia de la estimación.
“Aprovecha la descarga experta, la gestión inteligente de la caché y los algoritmos predictivos de captación previa para resolver de manera eficiente los desafíos de programación del almacenamiento y mejorar en gran medida la fluidez de la inferencia local de IA”, añadió la compañía.
Es importante tener en cuenta que, si bien este movimiento es una hazaña impresionante en sí mismo, LongSys no proporcionó detalles sobre la potencia de cálculo en términos de tokens por segundo, donde el chip Ryzen AI es relativamente limitado en comparación con la mayoría de las ofertas modernas de GPU AI.
En cualquier caso, el enfoque que esencialmente trata el almacenamiento como memoria sugiere que la IA localizada puede ejecutar modelos suficientemente grandes y que la memoria puede no ser una limitación estricta para ciertos enfoques.
Esto indica que las limitaciones de la memoria se pueden superar aprovechando el almacenamiento rápido y ejecutando un modelo de nivel de frontera que de otro modo requeriría decenas de miles de dólares en hardware de IA, lo cual no es poca cosa. Esto significa que los modelos que antes estaban limitados a centros de datos ahora se pueden ejecutar en un dispositivo que cabe en la palma de la mano.
Siga TechRadar en Google News Y Agréganos como fuente preferida Recibe noticias, reseñas y opiniones de nuestros expertos en tu feed.