Architecte Réseau F/H

Dassault Systèmes

Canton of Saint-Cloud, France

5 days ago

Role details

Contract type

Permanent contract

Employment type

Full-time (> 32 hours)

Working hours

Regular working hours

Languages

English, French

Experience level

Intermediate

Job location

Canton of Saint-Cloud, France

Tech stack

Confluence

Configuration Management Databases

Nvidia CUDA

Computer Engineering

Linux

Ethernet

Firmware

InfiniBand

Network Architecture

Remote Direct Memory Access

Prometheus

Grafana

Kubernetes

Low Latency

Job description

Nous recrutons un·e Architecte réseau afin de renforcer notre équipe AI Factory.

Outscale est un opérateur souverain et durable de l'Expérience en tant que Service qui offre à ses clients des environnements technologiques de confiance.

Nous offrons des expériences uniques grâce au savoir-faire de nos équipes passionnées, qui se reflète notamment par la création de solutions de Business Expériences, le développement de notre propre orchestrateur Cloud, TINA OS, ou encore l'obtention de la qualification SecNumCloud., * Dans le cadre du déploiement et de l'exploitation d'une AI Factory à très grande échelle, reposant sur plusieurs clusters NVIDIA NVL72. Vous êtes en charge de l'architecture, de l'optimisation et de l'évolution des infrastructures réseaux, systèmes et GPU fabrics alimentant des charges IA critiques (training, fine-tuning, inference).

L'environnement est international, hautement distribué (Europe, Amérique du Nord, Asie) et orienté performance extrême, faible latence et scalabilité horizontale.

Architecture & design de la GPU Fabric :

Concevoir et faire évoluer des architectures réseau haut débit, faible latence, adaptées aux NVL72 et aux workloads IA massivement parallèles Définir les topologies réseau (leaf-spine, fat-tree, dragonfly le cas échéant) pour l'interconnexion intra-NVL72 et le Scale-out multi-racks / multi-clusters
Sélectionner et valider les technologies : InfiniBand HDR / NDR Ethernet Spectrum / RoCEv2 Dimensionner les fabrics pour des usages IA à très grande échelle (NCCL-heavy, all-reduce intensif) Performance, RDMA & communications GPU :
Piloter le développement, l'optimisation et le tuning des communications RDMA
Piles RDMA : libibverbs, rdma-core, NVPeerMemory
Optimisations GPUDirect / GPUDirect-RDMA
Garantir des transferts GPU * GPU et GPU * NIC à très haute performance, sans surcharge CPU
Optimiser les communications collectives : NCCL MPI / CUDA-aware MPI Identifier et lever les goulots d'étranglement réseau, mémoire et CPU/GPU Intégration Kubernetes & workloads IA :
Concevoir l'intégration réseau de clusters GPU dans des environnements Kubernetes
Gérer l'exposition et l'isolation des interfaces RDMA : Device Plugin NVIDIA Network Operator / CNI avancés
Garantir le bon fonctionnement des workloads conteneurisés IA : Training distribué Jobs MPI / NCCL Pipelines data * GPU Exploitation, observabilité & troubleshooting
Mettre en place et exploiter des solutions de monitoring avancé:
Latence, bande passante, congestion, erreurs
Outils : Prometheus, Grafana, NetQ, UFM (ou équivalents)
Analyser les performances réseau et GPU fabric en production
Proposer et implémenter : Ajustements MTU Affinités CPU/GPU Tuning NIC, switch et firmware
Assurer le support niveau 2 / 3 sur incidents critiques Documentation
Rédaction de procédures, schémas d'infrastructure
Mise à jour du wiki Confluence et du CMDB (NetBox) Veille technologique
Suivi des évolutions NVIDIA, Mellanox, standards RDMA, Kubernetes
Proof-of-concept sur les nouvelles générations de NIC (RoCE v2, InfiniBand Enhanced Speed) Périmètre d'intervention : Europe, Amérique du Nord, Asie Stack technique
Solide expérience en architecture réseau HPC / IA / GPU
InfiniBand & RoCEv2
RDMA, GPUDirect, NCCL
Architectures GPU scale-up / scale-out
Kubernetes en contexte GPU
Linux bas niveau (NUMA, IRQ, CPU pinning)
Capacité à diagnostiquer des problèmes complexes de performance distribuée

Requirements

Diplômé(e) en ingénierie informatique, vous possédez une expérience professionnelle post-diplôme minimum de 4 ans sur les technologies NVIDIA RDMA (GPUDirect, RoCE, InfiniBand) dans des environnements HPC ou IA.
Vous appréciez travailler en équipe et possédez un bon relationnel.
Rigoureux, autonome et réactif, vous êtes naturellement force de proposition.
Vous parlez français et anglais couramment

Benefits & conditions

Principaux avantages et bénéfices :

Environnement multiculturel
Cadre de travail convivial axé sur le bien-être et la santé
Engagement en faveur de la diversité et de l'inclusion
Politique dynamique de développement de carrière : plan de formation, mobilités internes, etc.

Inclusion statement

As a game-changer in sustainable technology and innovation, Dassault Systèmes is striving to build more inclusive and diverse teams across the globe. We believe that our people are our number one asset and we want all employees to feel empowered to bring their whole selves to work every day. It is our goal that our people feel a sense of pride and a passion for belonging. As a company leading change, it's our responsibility to foster opportunities for all people to participate in a harmonized Workforce of the Future.

About the company

Intégrer une entreprise scientifique au cœur de l'innovation technologique, portée par une forte croissance depuis plus de 40 ans, OUTSCALE offers virtual twins of organizations and trusted cloud environments that make innovation easier and grow competitiveness in a sustainable way.