Argumentos a favor de los centros de datos de IA locales
Ventajas e inconvenientes de la nube
Muchas organizaciones están migrando sus cargas de trabajo a una infraestructura de nube pública, que, por definición, es compartida por muchos clientes. Si bien la escalabilidad en una nube pública puede ser considerable, muy pocos modelos de entrenamiento requieren miles de GPU trabajando simultáneamente. Una ventaja de usar una infraestructura de nube pública compartida es la disponibilidad de un gran número de servidores de alto rendimiento (es decir, costosos). Sin embargo, también puede ocurrir que no se disponga de un gran número de servidores de alto rendimiento cuando se necesiten. Además, los costos asociados con la entrada y salida de datos para modelos de entrenamiento de gran tamaño pueden ser significativos, especialmente si los datos de entrenamiento deben importarse desde otro proveedor de nube pública compartida.
Entrenamiento en IA en las instalaciones del cliente
Existen varias razones para considerar e implementar la IA en un centro de datos local.
- Costo : Si bien adquirir servidores con GPU puede ser costoso, el costo a largo plazo puede ser menor en comparación con el uso de una nube pública compartida. Las tarifas de la nube pueden ser relativamente altas con el tiempo, especialmente para la transferencia de datos. Además, el costo de adquirir un servidor GPU de gama alta puede ser elevado, incluso si todas las CPU o GPU se utilizan al 100% del tiempo disponible, lo cual es poco probable.
- Rendimiento : Existe una amplia gama de combinaciones de CPU y GPU disponibles, tanto en cantidad como en rendimiento. Para comprender los requisitos de IA empresarial, el número y el rendimiento de las CPU (1, 2, 4 u 8) son esenciales. La última generación de CPU cuenta con entre 16 y 128 núcleos y frecuencias base cercanas a los 4 GHz. Existe una variedad de GPU, desde generaciones anteriores hasta los modelos más recientes, con hasta miles de núcleos. En un centro de datos se pueden implementar configuraciones óptimas y múltiples, según los requisitos de CPU y GPU del proyecto.
- Reentrenamiento : Si bien existen diversos métodos para estimar el costo de entrenar un modelo de un tamaño y número de GPU determinados, muchos modelos requieren un reentrenamiento continuo con nuevos parámetros. Para lograr una inferencia precisa, el modelo debe reentrenarse con datos actualizados y más recientes, lo que puede llevar tanto tiempo como el entrenamiento original, dependiendo de la cantidad de datos nuevos que se utilicen. En un centro de datos local, los sistemas pueden utilizarse repetidamente, mientras que en la nube pública, los gastos pueden incrementarse con cada iteración y reentrenamiento del modelo.
- Software : Existen numerosas opciones de software a considerar al crear una solución de entrenamiento de IA eficiente y eficaz. Un proveedor de nube pública compartida podría no contar con todos los componentes necesarios, lo que podría requerir configuración y pruebas adicionales para cada instancia adquirida en una infraestructura de nube pública.
- Ubicación y soberanía de los datos : En muchos sectores y regiones, existen restricciones y requisitos sobre dónde deben residir los datos utilizados para el entrenamiento de la IA. Un centro de datos local permite a las organizaciones cumplir con estas normativas, mientras que el uso de un centro de datos en la nube pública remota podría no estar permitido.
- Seguridad : Para muchas organizaciones, la seguridad tanto de los datos como de los resultados es fundamental. En un centro de datos local, los equipos de seguridad pueden implementar políticas de seguridad más estrictas con respecto al acceso a los sistemas o dispositivos de almacenamiento. Al crear y utilizar IA que requiere acceso a procesos y datos internos, implementar la IA en un centro de datos local es la opción más lógica.
- Cumplimiento normativo : cuando los datos están sujetos a diversas regulaciones, crear un centro de datos local que cumpla con dichas regulaciones puede ser ideal, en comparación con la búsqueda de una nube pública que se adhiera a ellas.

Resumen
Implementar un centro de datos local eficaz y eficiente enfocado en IA requiere comprender los requisitos de rendimiento para las cargas de trabajo que mejor se adapten a la empresa. Un centro de datos local, si está bien diseñado, puede reducir el tiempo de obtención de resultados para el entrenamiento de IA y ofrecer resultados de inferencia de baja latencia y decisiones ajustadas al tipo de modelo. Un centro de datos local se puede configurar de forma personalizada a bajo costo para responder a las necesidades de la empresa. Comprender las cargas de trabajo, la cantidad de datos, el ajuste preciso del flujo de trabajo de IA y la experiencia interna con las diversas capas de software ayudará a determinar la mejor opción para la organización.
