Durante décadas, la industria de los centros de datos ha operado según un modelo de termodinámica relativamente predecible. Los operadores construyen una sala, la llenan con servidores y hacen circular aire frío por el suelo o los pasillos.
Las cargas de calor permanecieron en gran medida estáticas, las cargas eléctricas aumentaron gradualmente y los sistemas de refrigeración pudieron dimensionarse con márgenes estáticos y conservadores.
El artículo continúa a continuación.
Gerente de Producto, Sistemas Globales de Agua Enfriada, Vertiv.
La rápida adopción de la IA generativa y los modelos de lenguaje grande (LLM) ha marcado el comienzo de una nueva realidad térmica. A diferencia de algunas tareas, el entrenamiento de un modelo de IA experimenta grandes fluctuaciones en la carga de trabajo computacional en lugar de una producción constante.
El consumo de energía puede aumentar dinámicamente en segundos, a menudo con características térmicas muy diferentes entre estados de hardware mixtos.
Esto crea puntos calientes localizados que el enfriamiento por aire tradicional lucha por mitigar con la suficiente rapidez.
Sin una respuesta de refrigeración integrada, esta variabilidad térmica puede afectar el rendimiento y la vida útil del hardware que protege.
Transición de estático a dinámico
El desafío radica en cómo el comportamiento térmico es dinámico, no uniforme y está estrechamente vinculado a los patrones de carga de trabajo. En el pasado, la refrigeración era una capa fija en la parte inferior de la pila de TI. Hoy en día, debe ser una capacidad adaptativa que evolucione junto con la carga de trabajo.
Las decisiones sobre el suministro de energía, la densidad de los racks y la ubicación de la carga de trabajo ahora tienen consecuencias térmicas inmediatas. Esto exige una estrecha alineación entre los equipos de TI y la infraestructura de refrigeración.
El calor ya no puede considerarse un problema posterior dirigido a las rejillas de ventilación; Debe gestionarse como parte de un sistema integrado que abarque toda la instalación.
Capturando calor en la fuente
Para manejar la densidad extrema de las unidades de procesamiento de gráficos (GPU) modernas, los operadores capturan energía térmica cerca de la fuente.
La refrigeración líquida directa al chip atrapa el calor en la capa de silicio, lo que reduce la necesidad de ventiladores de alta velocidad y la energía necesaria. Los intercambiadores de calor de las puertas traseras atrapan el calor antes de que inunde los pasillos.
Este método proporciona precisión porque el líquido absorbe el calor de manera mucho más efectiva que el aire, lo que permite a los operadores manejar picos de carga de trabajo de IA sin aprovisionar excesivamente las instalaciones completas.
Para permitir esta arquitectura de refrigeración líquida, las unidades de distribución de refrigerante (CDU) desempeñan un papel importante. Las ofertas de CDU abarcan una amplia gama de capacidades e incluyen configuraciones en fila y en rack de lado a lado.
Estos sistemas admiten diseños de intercambio de calor líquido-aire y líquido-líquido, lo que los hace versátiles y adecuados para una variedad de diseños de centros de datos, incluidas instalaciones existentes y nuevas construcciones.
Diseño para densidad mixta
Es poco probable que el enfriamiento por aire desaparezca de la noche a la mañana o pronto. El futuro inmediato probablemente estará compuesto por soluciones híbridas en las que racks estándar se ubican junto a clústeres de IA de alta densidad.
Esto requiere un enfoque arquitectónico en capas. Se utilizan unidades de tratamiento de aire perimetrales y tecnologías de paredes térmicas para dirigir el flujo de aire a los límites de la sala de datos.
En los centros de datos, la gestión térmica a nivel de sala se basa en soluciones de enfriamiento de aire mecánico establecidas, incluidas unidades de aire acondicionado para salas de computadoras (CRAC) que utilizan refrigeración de expansión directa y unidades de tratamiento de aire para salas de computadoras (CRAH) que usan agua enfriada de plantas centrales.
Estos sistemas convencionales son muy adecuados para permitir una evolución progresiva hacia diseños de refrigeración híbridos, donde la circulación de aire funciona en conjunto con la refrigeración líquida específica para hacer frente de manera efectiva a las diferentes cargas de calor.
Los avances en las arquitecturas de servidores y GPU, combinados con la evolución de los estándares de la industria, han ampliado constantemente la temperatura aceptable del aire de entrada para los equipos de TI, lo que a menudo permite el funcionamiento hasta umbrales más altos dentro del rango permitido, como 40 a 45 °C para ciertas clases.
Este desarrollo permite que los sistemas refrigerados por líquido funcionen de manera eficiente con temperaturas más altas del agua de suministro de las instalaciones, generalmente 40 °C o más.
Como resultado, la refrigeración por aire logra una nueva practicidad y rentabilidad en configuraciones híbridas, al mismo tiempo que impulsa una revisión exhaustiva de las configuraciones heredadas de agua enfriada y expansión directa para identificar el método de refrigeración por aire más apropiado y optimizado.
Estos sistemas permiten la recolección controlada de calor en instalaciones de piso elevado y no elevado. En salas de IA de densidad mixta, estos elementos arquitectónicos ayudan a mantener condiciones predecibles incluso cuando se superponen técnicas locales de refrigeración líquida.
El resultado es una mayor estabilidad y opcionalidad. Los operadores pueden aumentar selectivamente la densidad sin comprometerse a un rediseño total de las instalaciones.
Revisión del rechazo del calor residual
Una vez que se captura el calor, también están evolucionando técnicas para rechazarlo o reutilizarlo. A medida que los requisitos térmicos específicos para el hardware de IA emergente continúan evolucionando y las cargas térmicas a nivel de rack continúan aumentando, especificar estrictamente un único punto de ajuste del agua de refrigeración puede introducir algunas limitaciones.
Esto podría conducir a una eficiencia subóptima, una capacidad insuficiente de rechazo de calor en cargas máximas o un desperdicio innecesario de energía si los sistemas futuros soportan condiciones más cálidas. En cambio, las arquitecturas flexibles que se adaptan a un amplio espectro de temperaturas de suministro y estrategias de enfriamiento híbrido respaldan cada vez más operaciones escalables y de alta densidad para mitigar estas variables.
La refrigeración se está adaptando para responder a estas condiciones dinámicas como una solución clave para los centros de datos diseñados para operar a temperaturas del agua más altas. Esto permite un uso más extendido del enfriamiento gratuito y reduce la dependencia de compresores mecánicos, alineando el sistema de enfriamiento con las condiciones operativas del mundo real en lugar de puntos de diseño fijos.
Los enfriadores de tornillo con refrigeración gratuita representan una opción estratégica para los centros de datos que buscan reducir el consumo de energía sin comprometer el rendimiento. Proporcionan una alta eficiencia a temperaturas ambiente elevadas, lo que permite a los operadores extender el tiempo de enfriamiento gratuito durante todo el año.
Al combinar una potente refrigeración mecánica con un diseño de refrigeración gratuita optimizado, estas unidades reducen los costos operativos, estabilizan el rendimiento del sistema y respaldan estrategias térmicas más responsables con el medio ambiente.
Al mismo tiempo, las tecnologías de enfriadores centrífugos continúan proporcionando la capacidad central necesaria. Cuando se requiere un rendimiento de enfriamiento confiable o donde se requieren bajas temperaturas de suministro, los sistemas centrífugos brindan la estabilidad y escalabilidad necesarias para manejar cargas variables.
En lugar de representar filosofías en competencia, estos enfoques reflejan diferentes etapas del recorrido térmico de una instalación y diferentes prioridades operativas.
Control como una capa unificada
El desafío radica en gestionar simultáneamente sistemas de aire, líquidos e híbridos. Lo que permite que esta variedad de técnicas de enfriamiento funcione como un sistema coherente es el control.
Los sensores y análisis modernos ahora vinculan las cargas de TI directamente con las plantas de enfriamiento y los sistemas de gestión del flujo de aire. Cuando aumenta la carga de trabajo de la IA, la plataforma de control anticipa las variaciones de temperatura y ajusta los puntos de ajuste, los caudales y la capacidad de enfriamiento en tiempo real.
Reduce el consumo de energía innecesario, mejora la resiliencia y proporciona la información operativa necesaria para planificar una expansión futura.
Para los operadores, esta visibilidad favorece una mejor toma de decisiones. Comprender cómo se mueve realmente el calor a través de una instalación facilita la evaluación de nuevas tecnologías, la validación de supuestos de diseño y la gestión de riesgos a medida que aumentan las implementaciones de IA.
La integración de servicios de soporte de extremo a extremo en toda la cadena térmica (desde el diseño inicial y la puesta en servicio hasta la optimización continua) ayuda a mejorar la confiabilidad continua mediante la implementación de expertos y el mantenimiento predictivo.
Enumeramos los mejores modelos de lenguajes grandes (LLM).