La inferencia expulsa a la IA del centro de datos

A principios de la década de 2000, los arquitectos de Internet se enfrentaron a un problema moderno que suena familiar: ¿cómo se construye un sistema que pueda manejar una demanda masiva e impredecible sin colapsar cuando falla una sola parte?

Su respuesta fue crear un sistema de redes de igual a igual. En lugar de enrutar todo a través de un servidor central, los sistemas P2P distribuyen la carga entre miles de nodos individuales sin un único punto de falla, la inteligencia cerca del usuario y la resiliencia están integradas en la arquitectura en lugar de atornilladas.

El artículo continúa a continuación.

bebé cianótico

Fundador del fondo de inversión Epochal Corporation.

Luego, a medida que se afianzó la era de la computación en la nube, el modelo de hiperescala se convirtió en la lógica de infraestructura dominante de los últimos quince años. Su premisa (consolidar todo en el centro de datos más grande posible, optimizar el costo unitario y centralizar sin límites) tiene sentido para muchas cargas de trabajo.

Pero la especulación sobre la IA, la fase de la IA que ahora está irrumpiendo en el entorno empresarial, opera exactamente con los mismos principios que impulsaron el P2P en primer lugar.

entender por qué

Para entender por qué es necesario separar dos fases de la IA que a menudo se combinan. Entrenar un modelo grande es un proceso único que requiere mucha computación. Funciona bien en una infraestructura centralizada y agrupada y tiene una lógica de hiperescala. Las estimaciones varían.

Las conjeturas surgen cada vez que el modelo se utiliza realmente: un sistema de detección de fraude señala una transacción, un sistema de mantenimiento predictivo detecta una falla en la fábrica, una plataforma logística recalcula las rutas en tiempo real. Estas decisiones ocurren continuamente, en milisegundos, donde realmente se ejecutan las operaciones.

Enrutar cargas de trabajo estimadas a una instalación remota de hiperescala introduce una latencia que es simplemente incompatible con muchos de estos casos de uso. Un sistema de apoyo quirúrgico no puede esperar a un viaje de ida y vuelta a un centro de datos en otra región. No es un sistema de seguridad industrial, un dron de inspección autónomo o un agente de servicio al cliente en tiempo real que se ejecuta en la infraestructura del comercio minorista.

McKinsey proyecta que la demanda mundial de centros de datos se triplicará con creces para 2030, impulsada abrumadoramente por conjeturas más que por capacitación, y la infraestructura para satisfacer esa demanda debe construirse en torno a lo que las conjeturas realmente requieren, que es computación cerca de donde se toman las decisiones.

La respuesta a los sistemas P2P fue dejar de tratar la distribución como un problema y tratarla como arquitectura. BitTorrent no intentó resolver la transferencia de archivos construyendo un servidor central más rápido, sino que distribuyó el problema entre miles de nodos: cada usuario más cerca, cada uno manejando localmente la demanda local.

Cuando los nodos individuales se cierran, el sistema se degrada al margen. Lleva toda la red sin que ningún servidor central caiga. La arquitectura asumió el fracaso y se construyó en torno a él, superando simultáneamente a las alternativas centralizadas en velocidad, resiliencia y escala.

Computación de borde

La computación perimetral aplica la misma lógica a la infraestructura de IA. Las pequeñas instalaciones informáticas modulares ubicadas cerca de donde se generan y consumen los datos distribuyen la carga de trabajo asumida de manera similar a las transferencias de archivos P2P distribuidas. Cada sitio maneja las decisiones locales a nivel local. La red en su conjunto se vuelve más resistente porque ninguna instalación soporta toda la carga.

Ejecutar esa suposición de manera centralizada genera un costo que se agrava con la escala: cada vez que los datos salen de la red del proveedor de la nube a hiperescala, las organizaciones pagan tarifas de salida.

Para las cargas de trabajo de IA que requieren una transferencia continua de datos entre una instalación central y entornos operativos distribuidos, esos cargos se acumulan de maneras que son fáciles de subestimar durante la fase de planificación. El procesamiento de datos localmente en el borde (cerca de donde se generan) reduce el volumen que cruza primero la red.

Un cambio de hardware también está cambiando el cálculo de probabilidad a nivel de dispositivo. Las unidades de procesamiento neuronal (NPU) diseñadas específicamente para tareas de inferencia de IA ahora están integradas en teléfonos inteligentes, computadoras portátiles y dispositivos industriales de vanguardia.

La computación requerida para ejecutar cargas de trabajo de inferencia capaces continúa disminuyendo, y el hardware que habría requerido un rack de servidores hace unos años ahora cabe en un dispositivo portátil.

A medida que el hardware habilitado para la virtualización se vuelve más barato y físicamente más compacto, la suposición de que cada carga de trabajo debe enrutarse a una instalación centralizada se vuelve más difícil de sostener.

Soberanía de datos

A medida que las regulaciones sobre soberanía de datos se endurecen en la UE, el Sudeste Asiático, América Latina y más allá, la especulación concentrada en un pequeño número de instalaciones crea exposición legal.

Para las organizaciones que operan en múltiples jurisdicciones, la infraestructura de borde resuelve esto por diseño: los datos se procesan localmente, dentro de las jurisdicciones relevantes, sin la necesidad de soluciones legales y técnicas complejas a posteriori.

Finalmente, otro factor importante es que la disponibilidad de electricidad –no el precio– se está convirtiendo en la limitación vinculante de la capacidad de los centros de datos. En el norte de Virginia, el centro de nube más denso del mundo, las empresas de servicios públicos estiman que los plazos de conexión para grandes proyectos se extenderán hasta siete años debido a la congestión de la red.

Los centros de datos de Irlanda consumen actualmente más del 20% de la electricidad nacional. Estos problemas son consecuencias predecibles de concentrar grandes cálculos en un pequeño número de lugares, pero el problema de MW es más manejable cuando no es necesario resolverlo en un solo lugar.

La implementación perimetral, al distribuir las cargas de trabajo entre muchos sitios más pequeños, distribuye la demanda de energía de una manera que se alinea mejor con la capacidad de la red disponible.

Nada de esto significa que la infraestructura a hiperescala vaya a desaparecer. Las cargas de trabajo de capacitación, el procesamiento de datos a gran escala y muchas aplicaciones empresariales se ejecutarán de manera eficiente en un entorno de nube centralizado.

El argumento a favor del borde no es un argumento en contra de la nube, sino más bien a favor de hacer coincidir la arquitectura de infraestructura que las cargas de trabajo realmente necesitan.

Los ingenieros que construyeron la red P2P se dieron cuenta de que distribuir inteligencia a través de la red la hacía más fuerte, no más débil.

A medida que las suposiciones empujan a la IA fuera del centro de datos y hacia los lugares donde realmente operan las empresas, esa lección vuelve a ser cada vez más relevante.

Hemos calificado y revisado el mejor software de respaldo.

Este artículo fue producido en parte Perspectiva profesional de TechRadarNuestro canal para mostrar las mejores y más brillantes mentes de la industria tecnológica actual.

Las opiniones expresadas aquí son las del autor y no necesariamente las de TechRadarPro o Future plc. Si está interesado en contribuir, obtenga más información aquí:

Enlace de origen

Continue Reading

Previous: Masterclass tactique – L’entraîneur-chef de l’Inter Milan, Christian Chivu, est un génie sur le banc : détails
Next: Des bijoutiers hippies du Nouveau-Mexique affirment que leurs bibelots mystiques ont été fabriqués par une tribu indigène… Maintenant, leurs origines très honteuses ont été révélées

Deja un comentario Cancelar respuesta

Related Stories

Faux chèque bancaire UCO : des photos bancaires générées par ChatGPT 2.0 circulent sur les réseaux sociaux, soulevant des problèmes de fraude

Fonctionnalité de chronologie personnalisée X optimisée par Grok implémentée pour fournir des flux basés sur l’en-tête

Les exportations de smartphones « fabriqués en Inde » devraient croître de 8 % en 2025, grâce à une augmentation de 28 % des exportations

You may have missed

Kate Middleton garde son bras bandé lors des célébrations du centenaire de la Reine… et ce n’est pas la première fois qu’elle doit porter un pansement

Faux chèque bancaire UCO : des photos bancaires générées par ChatGPT 2.0 circulent sur les réseaux sociaux, soulevant des problèmes de fraude

La estrella de los Western Bulldogs, Aaron Naughton, fue retirado en camilla después de una caída de cabeza ‘extrema’

Méga package : Kalen DeBoer obtient une prolongation massive