A finales de los 90, se comprimía porque el almacenamiento era limitado, el ancho de banda era caro y los usuarios valoraban la respuesta rápida.
En aquel entonces, la compresión de archivos consistía en codificar, reorganizar o modificar datos para reducir su tamaño: cargas útiles más pequeñas significaban una entrega más rápida y eficiente y menos espacio de almacenamiento.
Ingeniero Distinguido en la Oficina CTO de F5.
Hoy en día, la compresión consiste en no arruinarse con la especulación.
En el mundo de la IA, crear cada token es conocimiento y trabajo de conocimiento, costoso para las máquinas. Entonces, ya no comprimimos para hacer las cosas más pequeñas. Comprimimos para que a la IA le resulte más barato “pensar”.
Y sí, el ancho de banda todavía cuesta dinero. La salida de proveedores de la nube es notoria y las facturas por transferencia de datos aún pueden causar palpitaciones. Pero sea honesto y compare el costo de generar 10,000 tokens en un modelo de lenguaje grande (LLM) de primera calidad con el costo de mover un megabyte a través del cable.
Uno es el error de redondeo olvidado en la factura mensual. El otro es un mensaje redactado con severidad de finanzas que le pregunta por qué de repente gastó el presupuesto del tercer trimestre.
Invertido de optimización de compresión a control de costos
Solía optimizar las rutas de red, minimizar las cargas útiles y precomprimir los recursos para que su aplicación no tardara seis días en cargarse en una conexión 3G. Pero los LLM han redefinido las barreras de una manera que parece casi una falta de respeto a las últimas tres décadas de ingeniería de sistemas. Ahora bien, el componente más lento y caro del sistema no es la red. Es el cerebro.
El costo de producir texto ahora eclipsa el costo de transportarlo. Cada token emitido por un LLM reclama ciclos de GPU, VRAM, potencia y latencia. No es barato y, según el modelo que elijas para el trimestre, es francamente caro. Debido a esto, la cadena de valor de compresión se invierte.
Ahora comprimimos los datos no para comprimirlos, sino para reducir la cantidad de “pensamientos” que una IA tiene para “pensar”.
Los nuevos chicos de compresión de la cuadra.
La compresión solía vivir en el borde de la red en dispositivos especiales. Luego, se integra en los controladores de entrega de aplicaciones, tomando nombres como “minificación” y “compresión HTTP”. Durante un tiempo tuvo una funcionalidad especial. Un avance rápido hasta el día de hoy y esto es solo una parte integral de la distribución de aplicaciones.
Pero, gracias a las herramientas de inteligencia artificial, estamos viendo la aparición de nuevas técnicas de compresión. Ya no nos limitamos a comprimir texto utilizando algoritmos conocidos. Estamos soltando palabras como un editor al estilo Chicago o AP con un bolígrafo lleno de tinta roja y algo que demostrar.
Prompt Compresión se ha convertido en el nuevo campeón de los pesos pesados. Reducir Solicita reducir la factura. ¿Detalles irrelevantes? se ha ido ¿Contexto innecesario? ha sido eliminado. ¿Instrucciones demasiado locuaces? Recórtelo como un seto demasiado grande. Cuanto más breve sea el mensaje, menor será el costo del token y más feliz estará su departamento de adquisiciones.
“Sea conciso” ha pasado silenciosamente de ser una prioridad de redacción a una estrategia de control de costos. Respuesta corta = respuesta barata. Respuesta larga = alguien está pagando por esa redacción. Esta es la compresión de salida.
Incrustar compresión no se trata de reducir bytes, sino de reducir dimensiones. Esto reduce el uso de memoria, los costos de recuperación y su almacén de vectores que le factura silenciosamente cada minuto.
La poda, el escalado y la destilación son la base de la compresión del modelo. En otra época, se trataba de curiosidades académicas. Hoy en día, tienen un propósito: abaratar su funcionamiento. ¿Incluso si va rápido? Increíble si cabe en una GPU pequeña. milagroso Pero el punto es, y siempre ha sido, reducir el número de quemaduras.
Compresión como nuevo control de IA
La compresión ya no es una belleza; Es un pilar de la IA operativa. Hoy en día, las redes son baratas. El almacenamiento es barato. La CPU es barata. La memoria es tan barata que ya ni siquiera pretendemos gestionarla. ¿Pero adivina la GPU? Este es el nuevo petróleo. Y al igual que el petróleo, ahora tenemos una economía global dedicada a extraer eficientemente hasta la última gota.
¿Cómo puede mantenerse dentro del presupuesto, escalar de manera responsable, evitar sobrecostos accidentales de tokens de millones de dólares y evitar que los agentes reescriban Guerra y Paz porque olvidó establecer el token máximo? Cuando piensa en la operación más costosa de su sistema, empieza a pensar como un recurso limitado.
Ahora contratamos no porque nuestras redes no puedan manejar la carga, sino porque nuestras IA no pueden manejar el envío. La compresión ya no sirve a la red. Sirve al libro mayor. El futuro no se trata de reducir los datos; Se trata de pensar barato.
Hemos clasificado los mejores compresores de PDF.
Este artículo fue producido en parte Perspectiva profesional de TechRadarNuestro canal para mostrar las mejores y más brillantes mentes de la industria tecnológica actual.
Las opiniones expresadas aquí son las del autor y no necesariamente las de TechRadarPro o Future plc. Si está interesado en contribuir, obtenga más información aquí: