Architecte Systèmes et Réseaux H/F
Role details
Job location
Tech stack
Job description
Dans le cadre du déploiement et de l'exploitation d'une AI Factory à très grande échelle, reposant sur plusieurs clusters NVIDIA NVL72, vous êtes en charge de :
- L'architecture
- L'optimisation et de
- L'évolution des infrastructures réseaux, systèmes et GPU fabrics alimentant des charges IA critiques (training, fine-tuning, inference).
Architecture & design de la GPU Fabric :
-
Concevoir et faire évoluer des architectures réseau haut débit, faible latence, adaptées aux NVL72 et aux workloads IA massivement parallèles Définir les topologies réseau (leaf-spine, fat-tree, dragonfly le cas échéant) pour :
-
Interconnexion intra-NVL72
-
Scale-out multi-racks / multi-clusters
-
Sélectionner et valider les technologies :
-
InfiniBand HDR / NDR
-
Ethernet Spectrum / RoCEv2
-
Dimensionner les fabrics pour des usages IA à très grande échelle (NCCL-heavy, all-reduce intensif)
Performance, RDMA & communications GPU :
-
Piloter le développement, l'optimisation et le tuning des communications RDMA
-
Piles RDMA : libibverbs, rdma-core, NVPeerMemory
-
Optimisations GPUDirect / GPUDirect-RDMA
-
Garantir des transferts GPU GPU et GPU NIC à très haute performance, sans surcharge CPU
-
Optimiser les communications collectives, MPI / CUDA-aware MPI
-
Identifier et lever les goulots d'étranglement réseau, mémoire et CPU/GPU
Intégration Kubernetes & workloads IA :
-
Concevoir l'intégration réseau de clusters GPU dans des environnements Kubernetes
-
Gérer l'exposition et l'isolation des interfaces RDMA :
-
Device Plugin NVIDIA
-
Network Operator / CNI avancés
-
Garantir le bon fonctionnement des workloads conteneurisés IA :
-
Training distribué Jobs
-
MPI / NCCL
-
Pipelines data GPU
Exploitation, observabilité & troubleshooting
-
Mettre en place et exploiter des solutions de monitoring avancé : Latence, bande passante, congestion, erreurs
-
Outils : Prometheus, Grafana, NetQ, UFM (ou équivalents)
-
Analyser les performances réseau et GPU fabric en production
-
Proposer et implémenter :
-
Ajustements MTU
-
Affinités CPU/GPU
-
T uning NIC, switch et firmware
-
Assurer le support niveau 2 / 3 sur incidents critiques
Documentation
- Rédaction de procédures, schémas d'infrastructure
- Mise à jour du wiki Confluence et du CMDB (NetBox)
Veille technologique
- Suivi des évolutions NVIDIA, Mellanox, standards RDMA, Kubernetes
- Proofofconcept sur les nouvelles générations de NIC (RoCEv2, InfiniBand EnhancedSpeed)
Stack technique
-
Architecture réseau HPC / IA / GPU
-
Maîtrise avancée de :
-
InfiniBand & RoCEv2
-
RDMA, GPUDirect, NCCL
Architectures GPU scale-up / scale-out
-
Bonnes connaissances de :
-
Kubernetes en contexte GPU
-
Linux bas niveau (NUMA, IRQ, CPU pinning)
-
Capacité à diagnostiquer des problèmes complexes de performance distribuée
Requirements
Diplômé·e d'un Master en ingénierie informatique, vous possédez une expérience professionnelle post-diplôme minimum de 4 ans dans des environnements HPC ou IA.
- Vous parlez anglais et français couramment.
- Vous appréciez analyser & résoudre des problèmes complexes
- Vous aimez travailler en équipe.
Benefits & conditions
Environnement multiculturel
- Cadre de travail convivial axé sur le bien-être et la santé
- Engagement en faveur de la diversité et de l'inclusion
- Politique dynamique de développement de carrière : plan de formation, mobilités internes, etc.