Plaidoyer pour les centres de données d'IA sur site
Avantages et inconvénients du cloud
De nombreuses organisations migrent leurs charges de travail vers une infrastructure de cloud public, qui, par définition, est partagée par de nombreux clients. Si la scalabilité d'un cloud public peut être considérable, rares sont les modèles d'entraînement qui nécessitent des milliers de GPU fonctionnant simultanément. L'un des avantages d'une infrastructure de cloud public et partagé réside dans la disponibilité potentielle d'un grand nombre de serveurs haut de gamme (donc coûteux). En revanche, ces serveurs peuvent ne pas être disponibles au moment voulu. Par ailleurs, les coûts liés à l'importation et à l'exportation de données pour les modèles d'entraînement volumineux peuvent être importants, notamment si les données d'entraînement doivent être importées depuis un autre fournisseur de cloud public et partagé.
Formation en IA sur site
Plusieurs raisons justifient la prise en compte et la mise en œuvre de l'IA au sein d'un centre de données sur site.
- Coût – Bien que l'acquisition de serveurs équipés de GPU puisse s'avérer onéreuse, le coût à long terme peut être inférieur à celui d'un cloud public partagé. Les frais de cloud peuvent être relativement élevés sur la durée, notamment pour les transferts de données. De plus, le coût d'acquisition d'un serveur GPU haut de gamme peut être important, même si tous les CPU ou GPU sont utilisés à 100 % du temps disponible, ce qui est peu probable.
- Performances – De nombreuses combinaisons de processeurs (CPU) et de cartes graphiques (GPU) sont disponibles, tant en termes de nombre que de performances. La compréhension des besoins en IA d'entreprise rend essentiel le choix du nombre et des performances des CPU (1, 2, 4 ou 8). La dernière génération de CPU offre de 16 à 128 cœurs, avec des fréquences d'horloge de base proches de 4 GHz. Il existe une large gamme de GPU, des générations plus anciennes aux dernières versions, avec jusqu'à plusieurs milliers de cœurs. Des configurations optimales et multiples peuvent être mises en œuvre dans un centre de données, en fonction des besoins du projet en CPU et GPU.
- Réentraînement – Bien qu'il existe différentes méthodes pour estimer le coût d'entraînement d'un modèle en fonction de sa taille et du nombre de GPU disponibles, de nombreux modèles nécessitent un réentraînement continu avec de nouveaux paramètres. Pour une meilleure précision des inférences, le modèle doit être réentraîné avec des données mises à jour et plus récentes, ce qui peut prendre autant de temps que l'entraînement initial selon la quantité de nouvelles données utilisées. Dans un centre de données sur site, les systèmes peuvent être utilisés de manière répétée, tandis que dans le cloud public, les coûts peuvent s'accumuler à chaque itération et réentraînement du modèle.
- Logiciels – De nombreux logiciels sont à prendre en compte pour créer une solution d'entraînement à l'IA efficace. Un fournisseur de cloud public partagé peut ne pas disposer de tous les composants nécessaires, ce qui peut exiger une configuration et des tests supplémentaires pour chaque instance acquise dans une infrastructure de cloud public.
- Localisation et souveraineté des données – Dans de nombreux secteurs et zones géographiques, des restrictions et des exigences peuvent s'appliquer quant à l'emplacement des données utilisées pour l'entraînement de l'IA. Un centre de données sur site permet aux organisations de se conformer à ces réglementations, contrairement à l'utilisation d'un centre de données distant dans un cloud public.
- Sécurité – Pour de nombreuses organisations, la sécurité des données et des résultats est primordiale. Dans un centre de données sur site, les équipes de sécurité peuvent mettre en œuvre des politiques de sécurité plus strictes concernant l'accès aux systèmes et aux périphériques de stockage. Lors de la création et de l'utilisation d'une IA nécessitant l'accès aux processus et aux données internes, le déploiement de l'IA dans un centre de données sur site s'impose comme une solution pertinente.
- Conformité – Lorsque les données sont soumises à diverses réglementations, la création d'un centre de données sur site conforme peut être idéale, par rapport à l'identification d'un cloud public respectant ces réglementations.

Résumé
La mise en place d'un centre de données sur site performant et efficace, dédié à l'IA, nécessite une compréhension approfondie des exigences de performance des charges de travail les mieux adaptées à l'entreprise. Un centre de données sur site, correctement conçu, permet de réduire le délai d'obtention des résultats pour l'entraînement des modèles d'IA et de fournir des résultats d'inférence à faible latence, ainsi que des décisions optimisées en fonction du type de modèle. Ce type de centre de données peut être configuré sur mesure à moindre coût pour répondre aux besoins spécifiques de l'entreprise. La compréhension des charges de travail, du volume de données, de l'optimisation du flux de travail d'IA et l'expertise interne sur les différentes couches logicielles sont autant d'éléments qui permettront de déterminer la solution la plus adaptée à l'organisation.
