Architecte Réseau F/H
Role details
Job location
Tech stack
Job description
Nous recrutons un·e Architecte réseau afin de renforcer notre équipe AI Factory.
Outscale est un opérateur souverain et durable de l'Expérience en tant que Service qui offre à ses clients des environnements technologiques de confiance.
Nous offrons des expériences uniques grâce au savoir-faire de nos équipes passionnées, qui se reflète notamment par la création de solutions de Business Expériences, le développement de notre propre orchestrateur Cloud, TINA OS, ou encore l'obtention de la qualification SecNumCloud., * Dans le cadre du déploiement et de l'exploitation d'une AI Factory à très grande échelle, reposant sur plusieurs clusters NVIDIA NVL72. Vous êtes en charge de l'architecture, de l'optimisation et de l'évolution des infrastructures réseaux, systèmes et GPU fabrics alimentant des charges IA critiques (training, fine-tuning, inference).
- L'environnement est international, hautement distribué (Europe, Amérique du Nord, Asie) et orienté performance extrême, faible latence et scalabilité horizontale.
Architecture & design de la GPU Fabric :
-
Concevoir et faire évoluer des architectures réseau haut débit, faible latence, adaptées aux NVL72 et aux workloads IA massivement parallèles Définir les topologies réseau (leaf-spine, fat-tree, dragonfly le cas échéant) pour l'interconnexion intra-NVL72 et le Scale-out multi-racks / multi-clusters
-
Sélectionner et valider les technologies : InfiniBand HDR / NDR Ethernet Spectrum / RoCEv2 Dimensionner les fabrics pour des usages IA à très grande échelle (NCCL-heavy, all-reduce intensif) Performance, RDMA & communications GPU :
-
Piloter le développement, l'optimisation et le tuning des communications RDMA
-
Piles RDMA : libibverbs, rdma-core, NVPeerMemory
-
Optimisations GPUDirect / GPUDirect-RDMA
-
Garantir des transferts GPU * GPU et GPU * NIC à très haute performance, sans surcharge CPU
-
Optimiser les communications collectives : NCCL MPI / CUDA-aware MPI Identifier et lever les goulots d'étranglement réseau, mémoire et CPU/GPU Intégration Kubernetes & workloads IA :
-
Concevoir l'intégration réseau de clusters GPU dans des environnements Kubernetes
-
Gérer l'exposition et l'isolation des interfaces RDMA : Device Plugin NVIDIA Network Operator / CNI avancés
-
Garantir le bon fonctionnement des workloads conteneurisés IA : Training distribué Jobs MPI / NCCL Pipelines data * GPU Exploitation, observabilité & troubleshooting
-
Mettre en place et exploiter des solutions de monitoring avancé:
-
Latence, bande passante, congestion, erreurs
-
Outils : Prometheus, Grafana, NetQ, UFM (ou équivalents)
-
Analyser les performances réseau et GPU fabric en production
-
Proposer et implémenter : Ajustements MTU Affinités CPU/GPU Tuning NIC, switch et firmware
-
Assurer le support niveau 2 / 3 sur incidents critiques Documentation
-
Rédaction de procédures, schémas d'infrastructure
-
Mise à jour du wiki Confluence et du CMDB (NetBox) Veille technologique
-
Suivi des évolutions NVIDIA, Mellanox, standards RDMA, Kubernetes
-
Proof-of-concept sur les nouvelles générations de NIC (RoCE v2, InfiniBand Enhanced Speed) Périmètre d'intervention : Europe, Amérique du Nord, Asie Stack technique
-
Solide expérience en architecture réseau HPC / IA / GPU
-
InfiniBand & RoCEv2
-
RDMA, GPUDirect, NCCL
-
Architectures GPU scale-up / scale-out
-
Kubernetes en contexte GPU
-
Linux bas niveau (NUMA, IRQ, CPU pinning)
-
Capacité à diagnostiquer des problèmes complexes de performance distribuée
Requirements
- Diplômé(e) en ingénierie informatique, vous possédez une expérience professionnelle post-diplôme minimum de 4 ans sur les technologies NVIDIA RDMA (GPUDirect, RoCE, InfiniBand) dans des environnements HPC ou IA.
- Vous appréciez travailler en équipe et possédez un bon relationnel.
- Rigoureux, autonome et réactif, vous êtes naturellement force de proposition.
- Vous parlez français et anglais couramment
Benefits & conditions
Principaux avantages et bénéfices :
- Environnement multiculturel
- Cadre de travail convivial axé sur le bien-être et la santé
- Engagement en faveur de la diversité et de l'inclusion
- Politique dynamique de développement de carrière : plan de formation, mobilités internes, etc.
Inclusion statement
As a game-changer in sustainable technology and innovation, Dassault Systèmes is striving to build more inclusive and diverse teams across the globe. We believe that our people are our number one asset and we want all employees to feel empowered to bring their whole selves to work every day. It is our goal that our people feel a sense of pride and a passion for belonging. As a company leading change, it's our responsibility to foster opportunities for all people to participate in a harmonized Workforce of the Future.