Argumentos a favor de los centros de datos de IA locales

La IA se ha convertido y seguirá siendo una tecnología dominante para las empresas de todo el mundo. Esta tecnología, capaz de transformar las prácticas empresariales y mejorar la toma de decisiones en una amplia gama de sectores, ha generado una demanda sin precedentes de acceso a servidores que puedan realizar la fase de entrenamiento o inferencia del proceso de IA. La infraestructura de IA necesaria para la fase de entrenamiento puede resultar costosa, pero un sistema de gama alta (con múltiples CPU y GPU) no siempre es la mejor opción. Al implementar el entrenamiento de IA en el centro de datos de una empresa, las organizaciones pueden reducir costos y, al mismo tiempo, aumentar su productividad y flexibilidad.

Gráfico que muestra estantes de Supermicro Sistemas 4U de 10 GPU

Ventajas e inconvenientes de la nube

Muchas organizaciones están migrando sus cargas de trabajo a una infraestructura de nube pública, que, por definición, es compartida por muchos clientes. Si bien la escalabilidad en una nube pública puede ser considerable, muy pocos modelos de entrenamiento requieren miles de GPU trabajando simultáneamente. Una ventaja de usar una infraestructura de nube pública compartida es la disponibilidad de un gran número de servidores de alto rendimiento (es decir, costosos). Sin embargo, también puede ocurrir que no se disponga de un gran número de servidores de alto rendimiento cuando se necesiten. Además, los costos asociados con la entrada y salida de datos para modelos de entrenamiento de gran tamaño pueden ser significativos, especialmente si los datos de entrenamiento deben importarse desde otro proveedor de nube pública compartida.

Entrenamiento en IA en las instalaciones del cliente

Existen varias razones para considerar e implementar la IA en un centro de datos local.

Costo : Si bien adquirir servidores con GPU puede ser costoso, el costo a largo plazo puede ser menor en comparación con el uso de una nube pública compartida. Las tarifas de la nube pueden ser relativamente altas con el tiempo, especialmente para la transferencia de datos. Además, el costo de adquirir un servidor GPU de gama alta puede ser elevado, incluso si todas las CPU o GPU se utilizan al 100% del tiempo disponible, lo cual es poco probable.
Rendimiento : Existe una amplia gama de combinaciones de CPU y GPU disponibles, tanto en cantidad como en rendimiento. Para comprender los requisitos de IA empresarial, el número y el rendimiento de las CPU (1, 2, 4 u 8) son esenciales. La última generación de CPU cuenta con entre 16 y 128 núcleos y frecuencias base cercanas a los 4 GHz. Existe una variedad de GPU, desde generaciones anteriores hasta los modelos más recientes, con hasta miles de núcleos. En un centro de datos se pueden implementar configuraciones óptimas y múltiples, según los requisitos de CPU y GPU del proyecto.
Reentrenamiento : Si bien existen diversos métodos para estimar el costo de entrenar un modelo de un tamaño y número de GPU determinados, muchos modelos requieren un reentrenamiento continuo con nuevos parámetros. Para lograr una inferencia precisa, el modelo debe reentrenarse con datos actualizados y más recientes, lo que puede llevar tanto tiempo como el entrenamiento original, dependiendo de la cantidad de datos nuevos que se utilicen. En un centro de datos local, los sistemas pueden utilizarse repetidamente, mientras que en la nube pública, los gastos pueden incrementarse con cada iteración y reentrenamiento del modelo.
Software : Existen numerosas opciones de software a considerar al crear una solución de entrenamiento de IA eficiente y eficaz. Un proveedor de nube pública compartida podría no contar con todos los componentes necesarios, lo que podría requerir configuración y pruebas adicionales para cada instancia adquirida en una infraestructura de nube pública.
Ubicación y soberanía de los datos : En muchos sectores y regiones, existen restricciones y requisitos sobre dónde deben residir los datos utilizados para el entrenamiento de la IA. Un centro de datos local permite a las organizaciones cumplir con estas normativas, mientras que el uso de un centro de datos en la nube pública remota podría no estar permitido.
Seguridad : Para muchas organizaciones, la seguridad tanto de los datos como de los resultados es fundamental. En un centro de datos local, los equipos de seguridad pueden implementar políticas de seguridad más estrictas con respecto al acceso a los sistemas o dispositivos de almacenamiento. Al crear y utilizar IA que requiere acceso a procesos y datos internos, implementar la IA en un centro de datos local es la opción más lógica.
Cumplimiento normativo : cuando los datos están sujetos a diversas regulaciones, crear un centro de datos local que cumpla con dichas regulaciones puede ser ideal, en comparación con la búsqueda de una nube pública que se adhiera a ellas.

Trío de Supermicro Sistemas de GPU para IA: sistema 8U, sistema 4U, sistema 5U

Resumen

Implementar un centro de datos local eficaz y eficiente enfocado en IA requiere comprender los requisitos de rendimiento para las cargas de trabajo que mejor se adapten a la empresa. Un centro de datos local, si está bien diseñado, puede reducir el tiempo de obtención de resultados para el entrenamiento de IA y ofrecer resultados de inferencia de baja latencia y decisiones ajustadas al tipo de modelo. Un centro de datos local se puede configurar de forma personalizada a bajo costo para responder a las necesidades de la empresa. Comprender las cargas de trabajo, la cantidad de datos, el ajuste preciso del flujo de trabajo de IA y la experiencia interna con las diversas capas de software ayudará a determinar la mejor opción para la organización.

Supermicro Soluciones de infraestructura de IA

Acelere y simplifique su implementación de IA con soluciones de infraestructura preparadas para IA . Como proveedor líder de infraestructura de IA local, Supermicro Los diseños de referencia llave en mano de aprovechan su vasta experiencia en la creación de algunos de los clústeres de IA más grandes del mundo. Las soluciones abarcan desde clústeres de entrenamiento a gran escala hasta soluciones inteligentes de inferencia en el borde.

Obtenga más información

Infraestructura de IA

Data Center Building Block Solutions® (DCBBS)

Fábrica de IA

Inteligencia Artificial

Almacenamiento de IA

Soluciones de IA para la industria

Soluciones NVIDIA

AMD Soluciones

Soluciones Intel

Soluciones Arm AGI

Servidores Rack

Procesador dual

Procesador único

Multiprocesador

Servidores GPU

Líneas de GPU 8U/10U

Líneas de GPU 4U/5U

Líneas de GPU 2U

Líneas de GPU 1U

Servidores Twin

FlexTwin™

BigTwin®

GrandTwin®

TwinPro®

FatTwin®

Blade

SuperBlade

MicroBlade

MicroCloud

Almacenamiento

Todos los sistemas de almacenamiento

Todo flash NVMe

Almacenamiento de carga superior

JBOF

Almacenamiento Grace a escala Petascale

Almacenamiento optimizado para empresas

Cajas de almacenamiento JBOD

Placas base

Servidores

Mesas de trabajo

Placas integradas / IoT

Sobremesa / Placas de juego

Matriz de la placa base

SKU globales

Chasis

Chasis 1U

Chasis 2U

Chasis 3U

Chasis de torre 4U

Torre mediana/minitorre

Chasis integrado/IoT

Soportes móviles / Kits de accionamiento

Cajas de almacenamiento JBOD

SKU globales

SuperRack®

Servicio de integración en bastidor

Accesorios

Matriz de cables

Matriz de tarjetas elevadoras

Matriz AOC de almacenamiento

Matriz de suministro de energía

Matriz de disipación de calor

Matriz de ventiladores del sistema

Soportes móviles / Kits de accionamiento

Embellecedores del chasis delantero

Almacenamiento, E/S, Seguridad

Sistemas de IA e IoT de borde

Sistemas de bordes compactos

Servidores Edge compactos

Servidores perimetrales para montaje en rack

Componentes integrados

Placas base integradas

Chasis integrado

Interruptores

Adaptadores

SuperWorkstations

Plataforma de desarrollo de IA con refrigeración líquida

Procesador único

Procesador dual

De oficina