La inteligencia artificial (IA) y los centros de datos de gran tamaño (hiperescala) no son tecnologías nuevas. Lo nuevo es cómo ahora ambos se están uniendo y apoyándose mutuamente en un período de crecimiento sin precedentes.
La industria de los centros de datos (DC) está atravesando actualmente un período de cambio estructural fundamental, impulsado en gran medida por el rápido cambio de la computación en la nube tradicional a la computación con IA.
La base y un facilitador clave de esta transformación es la fibra y la densidad extrema de fibra que se produce dentro de los centros de datos de IA.
Director comercial, Centro de datos HyperScaler, STL.
Este cambio está remodelando fundamentalmente la “capa física” de una utilidad pasiva a un activo estratégico. Mientras que la infraestructura de TI tradicional se basa en un flujo de tráfico secuencial de norte a sur, las “fábricas” de IA exigen una arquitectura paralela masiva de este a oeste donde miles de GPU se sincronizan en tiempo real.
Este pivote arquitectónico crea una crisis espacial literal; Estamos tratando de exprimir terabits de inteligencia a través de vías físicas (conductos, bandejas y conductos) que nunca fueron diseñadas para tales volúmenes.
Como resultado, la industria está avanzando más allá de la fibra “estándar” de 250 micrones hacia soluciones ultrafinas y de alta densidad de 160 micrones. Ya no se trata sólo de la velocidad de la luz, sino de la densidad del vidrio. Para escalar la inteligencia, primero debemos dominar la física de la fibra que la transporta.
Dilema de concentración
Un factor clave de este crecimiento en el volumen de fibra es la diferencia en cómo se procesan las cargas de trabajo de IA en comparación con cómo se procesan las cargas de trabajo tradicionales en la nube. En un entorno de nube tradicional, tareas como alojamiento web, gestión de bases de datos y almacenamiento de archivos suelen ser procesadas por la unidad central de procesamiento (CPU) de forma jerárquica a través de las capas de acceso, agregación y núcleo.
Aquí, los datos se transfieren principalmente entre los usuarios finales, que pueden estar ubicados en algún lugar fuera del DC, y los servidores dentro del DC. Este tipo de flujo de tráfico se describe como “norte-sur” y requiere fuertes puertas de enlace externas pero interconexiones internas relativamente modestas entre los países en desarrollo.
Sin embargo, estas arquitecturas de red tradicionales no son adecuadas para la comunicación “todos con todos” requerida para las unidades de procesamiento de gráficos (GPU) o grupos de aceleradores en los DC de IA, ya que introducen cuellos de botella de latencia y ancho de banda en puntos de agregación con exceso de suscripción; Esto no puede ser tolerado por la pila informática de IA.
Las fábricas de IA utilizan procesos iterativos y con gran cantidad de cálculos en los que miles de GPU deben actuar como una única entidad lógica. Esto crea una gran cantidad de tráfico interno debido a la gran cantidad de procesamiento paralelo requerido entre las GPU interconectadas.
En tal entorno, la red debe soportar la sincronización constante de los parámetros del modelo de IA y el intercambio oportuno de grandes cantidades de datos de modelado matemático, que generan grandes cantidades de tráfico interno. Este tipo de flujo de tráfico se conoce como tráfico “este-oeste” y ahora representa la mayor parte del movimiento de datos entre AI DC.
La arquitectura es muy densa en fibra para soportar un gran tráfico de este a oeste porque la cantidad de conexiones de este a oeste aumenta cuadráticamente con la cantidad de nodos (GPU/aceleradores).
Por qué ‘la fibra primero’ es el nuevo estándar
La escala del tráfico de este a oeste es mucho mayor que la del tráfico de norte a sur. Cualquier falla en un enlace o pérdida de paquetes en esta red es catastrófica; Por ejemplo, esto puede obligar a reiniciar todo el lote de capacitación, lo que resultará en pérdidas financieras significativas y retrasos en el desarrollo del modelo. Sólo la fibra puede cumplir con los requisitos de ancho de banda y velocidad necesarios para el procesamiento de IA.
Los operadores de AI DC también están implementando estructuras de red como InfiniBand o High-Performance Ethernet, y cumplir con las métricas de rendimiento de AI requiere mucha más fibra de alto rendimiento que las redes tradicionales basadas en CPU.
Para construir un centro de datos cuya infraestructura no quede obsoleta con el próximo aumento gradual de la velocidad (digamos de 800G a 1,6T), debemos adoptar un enfoque de fibra primero durante la fase de diseño de la red. La escalabilidad es ahora un requisito fundamental de DC.
No es la “velocidad de la luz”, ahora es la “velocidad de la luz”.
La presión para implementar rápidamente capacidad lista para IA es implacable y las soluciones de fibra preterminadas de alta densidad son realmente la única opción de implementación disponible cuando se construyen CD de IA. En lugar de pasar semanas in situ empalmando componentes multifibra, las soluciones de fibra preterminada ofrecen beneficios como:
Conectar y reproducir: Reducir significativamente los plazos de implementación (de semanas a días).
Reducción del error humano: Las soluciones preacabadas se ensamblan y prueban en fábrica.
Simplificación: Facilite la actualización o el intercambio de componentes a medida que la tecnología se desarrolla y la gestión de cables se vuelve más regulada.
Las soluciones preterminadas son un factor clave para el rápido despliegue de redes de fibra, lo que permite una rápida activación comercial de los AI DC.
Cambio del diseño basado en computación a un diseño basado en infraestructura
La conectividad de fibra optimizada ya no es una preocupación en un AI DC; Esta es ahora una expectativa importante en el diseño de mejores prácticas de AI DC. Nos estamos alejando de un mundo en el que compramos servidores o módulos de computación de IA y luego descubrimos cómo conectarlos.
En cambio, ahora estamos diseñando entornos de CC donde la conectividad de fibra es clave para determinar la eficiencia de las instalaciones de CC, la velocidad de implementación, la escalabilidad, la resiliencia, la agilidad operativa y la preparación a largo plazo.
Este cambio es particularmente importante ya que las cargas de trabajo de IA exigen interconexiones más densas, un movimiento de datos más rápido y una menor latencia en los entornos informáticos. Una arquitectura de fibra bien diseñada ayuda a reducir el retrabajo futuro, admite actualizaciones fluidas y garantiza que DC pueda escalar con los requisitos informáticos de IA en evolución.
Presentamos una lista de las mejores distribuciones de servidores Linux..
Este artículo fue producido en parte Perspectiva profesional de TechRadarNuestro canal para mostrar las mejores y más brillantes mentes de la industria tecnológica actual.
Las opiniones expresadas aquí son las del autor y no necesariamente las de TechRadarPro o Future plc. Si está interesado en contribuir, obtenga más información aquí: