Un equipo del MIT ha desarrollado un sistema de software que permite a los centros de datos aprovechar mejor sus discos de almacenamiento sin necesidad de añadir hardware. La clave consiste en repartir de forma dinámica el trabajo entre múltiples unidades en función de su estado real y no de una planificación fija para evitar que los discos más lentos o saturados frenen al conjunto. La propuesta es clave en un momento de máxima preocupación por el rendimiento y el consumo de energía de los centros de datos, la infraestructura estrella de una era tecnológica dominada por las altas exigencias de la inteligencia artificial.
En los centros de datos actuales, el almacenamiento se organiza en “piscinas” de discos a las que acceden muchas aplicaciones a la vez. En teoría, el nuevo modelo, del que se ha hecho eco MIT News, mejora la eficiencia: no todos los programas necesitan usar toda la capacidad al mismo tiempo. En la práctica, introduce un problema menos visible. Los discos no rinden igual, y basta con que uno vaya más lento para que el sistema completo pierda velocidad.
Esa variabilidad tiene varias causas. Algunas son estructurales: diferencias entre modelos, fabricantes o niveles de desgaste. Otras dependen del uso: escribir datos en un disco duro es más costoso que leerlos, y mezclar ambas operaciones penaliza el rendimiento. A eso se suma un tercer factor menos controlable: los propios discos ejecutan procesos internos –como la eliminación de datos antiguos– que pueden ralentizarlos de forma repentina.
Hasta la mitad de recursos en desuso
Los sistemas existentes suelen atacar uno de estos problemas cada vez. El resultado, según el estudio, es que una parte significativa del rendimiento queda sin utilizar. En escenarios habituales, la pérdida puede acercarse a la mitad del potencial disponible.
La propuesta del MIT, denominada Sandook –“caja”, en urdu–, cambia el enfoque. En lugar de asumir que todos los discos son equivalentes, el sistema mide continuamente cómo se comporta cada uno y ajusta el reparto de tareas en consecuencia. No hay asignaciones fijas: las cargas se redistribuyen en tiempo real.
El funcionamiento se apoya en dos niveles de control. Por un lado, un coordinador central decide cómo distribuir el trabajo en términos generales, teniendo en cuenta el estado de todos los discos. Por otro, cada máquina cuenta con un controlador local que puede reaccionar de inmediato si detecta que un dispositivo empieza a fallar o a ralentizarse. Esa combinación permite equilibrar planificación y rapidez de respuesta.
El sistema también introduce flexibilidad en la forma de acceder a los datos. Cuando una aplicación necesita leer información, puede elegir entre varias copias almacenadas en distintos discos y seleccionar la más rápida en ese momento. Para las escrituras, no existe una ubicación fija: los datos se envían al dispositivo que esté en mejores condiciones de recibirlos. Esa libertad evita cuellos de botella.
Reparto de trabajo y diagnóstico de los discos duros
Sobre esa base, Sandook aplica tres reglas simples. Separa en lo posible las lecturas de las escrituras para que no interfieran entre sí. Reparte el trabajo según el rendimiento real de cada disco, no de forma uniforme. Y, cuando detecta que uno se ralentiza –por ejemplo, durante procesos internos de limpieza–, reduce temporalmente su carga.
En las pruebas realizadas, el sistema ha conseguido acercar el rendimiento al límite teórico de los discos y mejorar de forma notable el funcionamiento de aplicaciones habituales. En tareas como bases de datos, entrenamiento de modelos de inteligencia artificial o compresión de imágenes, las mejoras oscilan entre el 12% y el 94%. También aumenta el uso efectivo de la capacidad disponible y se reducen los tiempos de respuesta.
“Existe una tendencia a añadir más recursos para resolver un problema, pero eso no es sostenible”, ha explicado Gohar Chaudhry, autora principal del trabajo. La alternativa que plantea el equipo pasa por exprimir mejor la infraestructura ya instalada, especialmente en un contexto en el que el coste energético y material de los centros de datos es cada vez más relevante.
Menos máquinas mejor utilizadas
El sistema no requiere cambios en el hardware ni en las aplicaciones, lo que facilita su adopción en entornos reales. Según el artículo técnico, esa combinación de adaptación en tiempo real y ausencia de requisitos adicionales permite recuperar una parte del rendimiento que hasta ahora quedaba dispersa en el funcionamiento irregular de los propios discos.
Los centros de datos que sostienen la inteligencia artificial y los servicios digitales han crecido en tamaño y consumo energético hasta convertir cada punto de eficiencia en una variable económica. En ese contexto, optimizar el uso de discos existentes sin ampliar infraestructura reduce tanto la necesidad de nuevas máquinas como la energía asociada a su funcionamiento y refrigeración. El propio equipo de la investigación lo formula en términos operativos: antes de sustituir hardware “muy costoso y con una huella de carbono elevada”, se trata de exprimir su rendimiento real. Rerecuperar capacidad infrautilizada en sistemas que operan a escala masiva implica menos inversión en equipamiento y una presión menor sobre el consumo eléctrico que acompaña a estos centros. El margen de mejora no estaba en comprar más máquinas, sino en decidir mejor cómo usarlas.
El artículo, titulado “Liberar el potencial de los SSD en centros de datos mediante el control de la variabilidad del rendimiento” y firmado por Gohar Irfan Chaudhry, Ankit Bhardwaj, Zhenyuan Ruan y Adam Belay, del MIT CSAIL y la Universidad de Tufts, se presentará en el simposio USENIX de Diseño e Implementación de Sistemas en Red, que se celebrará entre el 4 y el 6 de mayo en Renton (Estados Unidos).
Te puede interesar