- La supercomputadora LineShine conectada a Huawei convierte 2,45 millones de núcleos ARM en un enorme clúster de IA
- Los procesadores de Huawei impulsan una de las instalaciones informáticas de inteligencia artificial más grandes de China en la actualidad
- Las supercomputadoras que solo utilizan CPU eliminan las costosas transferencias de datos entre procesadores y aceleradores durante las cargas de trabajo.
China ha implementado una enorme supercomputadora solo con CPU llamada Lineshine que ofrece 1,54 exaflops de rendimiento de entrenamiento de IA sin utilizar ninguna GPU.
El sistema incluye 20.480 nodos de cómputo, con dos procesadores LX2 para un total de 40.960 chips por máquina.
Cada procesador LX2 tiene 304 núcleos de CPU, lo que significa que toda la supercomputadora utiliza un total de 2,45 millones de núcleos ArmV9.
Arquitectura inusual dentro del procesador LX2
El procesador fue desarrollado por Huawei o mediante un diseño conjunto con el Centro Nacional de Supercomputación de China, aunque la fuente exacta sigue sin revelarse.
Cada procesador LX2 utiliza dos chiplets de cómputo con núcleos organizados en ocho grupos que contienen 38 núcleos por grupo.
Cada núcleo incluye las unidades Scalable Vector Extension y Scalable Matrix Extension de ARM que aceleran las operaciones matriciales utilizadas en el entrenamiento de IA.
El procesador ofrece 60,3 teraflops de rendimiento FP64, 240 teraflops de rendimiento BF16 y 960 teraflops de rendimiento INT8 desde un solo chip.
El subsistema de memoria combina 32 GB de HBM incluido con hasta 4 TB/s de ancho de banda y hasta 256 GB de memoria DDR5 fuera del paquete.
Los sistemas basados únicamente en CPU ofrecen una serie de ventajas para tareas científicas complejas que combinan el entrenamiento de IA con una amplia ingesta y preprocesamiento de datos.
Dado que todo se ejecuta en el mismo procesador y espacio de memoria, evitan transferencias de datos de CPU a GPU costosas y que consumen mucho ancho de banda.
Los sistemas homogéneos basados en CPU también pueden exponer grupos de memoria coherente mucho más grandes al combinar HBM con capacidades DDR más grandes.
Esto es útil para manejar grandes conjuntos de datos científicos, generación extendida de recuperaciones y ventanas de contexto largas que las limitaciones de memoria de la GPU no pueden acomodar fácilmente.
Grandes advertencias que vienen con este método.
Los sistemas que solo utilizan CPU son generalmente menos eficientes energéticamente y proporcionan un rendimiento de IA menos denso que las supercomputadoras basadas en GPU.
Esta es la razón principal por la que la mayoría de las industrias están apostando por arquitecturas heterogéneas de CPU y GPU para cargas de trabajo de IA a gran escala.
China está siguiendo este camino en gran medida debido a la prohibición estadounidense de exportar GPU, no porque los sistemas basados únicamente en CPU sean tecnológicamente superiores para las tareas de IA.
Lineshine muestra que las CPU pueden realizar con éxito tareas de GPU, pero la brecha de eficiencia entre los dos enfoques sigue siendo sustancial y no es probable que se cierre pronto.
China está logrando una compensación estratégica, aceptando un menor rendimiento y un mayor consumo de energía a cambio de independencia de los ecosistemas extranjeros de hardware y software como las GPU y CUDA de Nvidia.
Que esa compensación tenga sentido para el desarrollo de la IA a largo plazo depende enteramente de la rapidez con la que los fabricantes chinos puedan cerrar la brecha de rendimiento con sus propios diseños de GPU.
Hasta entonces, LineShine seguirá siendo un logro de ingeniería notable y una necesidad práctica, pero quizás no sea un modelo sobre cómo construir la mayoría de las supercomputadoras de inteligencia artificial del mundo.
A través del hardware de Tom
Siga TechRadar en Google News Y Agréganos como fuente preferida Recibe noticias, reseñas y opiniones de nuestros expertos en tu feed.