Architecte Systèmes et Réseaux H/F

Dassault Systèmes

Canton de Torcy, France

2 days ago

Role details

Contract type

Permanent contract

Employment type

Full-time (> 32 hours)

Working hours

Regular working hours

Languages

English, French

Experience level

Intermediate

Job location

Canton de Torcy, France

Tech stack

Artificial Intelligence

Confluence

Configuration Management Databases

Nvidia CUDA

Computer Engineering

Linux

Ethernet

Firmware

InfiniBand

Network Architecture

Remote Direct Memory Access

Prometheus

Network Switches

Grafana

Kubernetes

Low Latency

Job description

Dans le cadre du déploiement et de l'exploitation d'une AI Factory à très grande échelle, reposant sur plusieurs clusters NVIDIA NVL72, vous êtes en charge de :

L'architecture
L'optimisation et de
L'évolution des infrastructures réseaux, systèmes et GPU fabrics alimentant des charges IA critiques (training, fine-tuning, inference).

Architecture & design de la GPU Fabric :

Concevoir et faire évoluer des architectures réseau haut débit, faible latence, adaptées aux NVL72 et aux workloads IA massivement parallèles Définir les topologies réseau (leaf-spine, fat-tree, dragonfly le cas échéant) pour :
Interconnexion intra-NVL72
Scale-out multi-racks / multi-clusters
Sélectionner et valider les technologies :
InfiniBand HDR / NDR
Ethernet Spectrum / RoCEv2
Dimensionner les fabrics pour des usages IA à très grande échelle (NCCL-heavy, all-reduce intensif)

Performance, RDMA & communications GPU :

Piloter le développement, l'optimisation et le tuning des communications RDMA
Piles RDMA : libibverbs, rdma-core, NVPeerMemory
Optimisations GPUDirect / GPUDirect-RDMA
Garantir des transferts GPU GPU et GPU NIC à très haute performance, sans surcharge CPU
Optimiser les communications collectives, MPI / CUDA-aware MPI
Identifier et lever les goulots d'étranglement réseau, mémoire et CPU/GPU

Intégration Kubernetes & workloads IA :

Concevoir l'intégration réseau de clusters GPU dans des environnements Kubernetes
Gérer l'exposition et l'isolation des interfaces RDMA :
Device Plugin NVIDIA
Network Operator / CNI avancés
Garantir le bon fonctionnement des workloads conteneurisés IA :
Training distribué Jobs
MPI / NCCL
Pipelines data GPU

Exploitation, observabilité & troubleshooting

Mettre en place et exploiter des solutions de monitoring avancé : Latence, bande passante, congestion, erreurs
Outils : Prometheus, Grafana, NetQ, UFM (ou équivalents)
Analyser les performances réseau et GPU fabric en production
Proposer et implémenter :
Ajustements MTU
Affinités CPU/GPU
T uning NIC, switch et firmware
Assurer le support niveau 2 / 3 sur incidents critiques

Documentation

Rédaction de procédures, schémas d'infrastructure
Mise à jour du wiki Confluence et du CMDB (NetBox)

Veille technologique

Suivi des évolutions NVIDIA, Mellanox, standards RDMA, Kubernetes
Proofofconcept sur les nouvelles générations de NIC (RoCEv2, InfiniBand EnhancedSpeed)

Stack technique

Architecture réseau HPC / IA / GPU
Maîtrise avancée de :
InfiniBand & RoCEv2
RDMA, GPUDirect, NCCL

Architectures GPU scale-up / scale-out

Bonnes connaissances de :
Kubernetes en contexte GPU
Linux bas niveau (NUMA, IRQ, CPU pinning)
Capacité à diagnostiquer des problèmes complexes de performance distribuée

Requirements

Diplômé·e d'un Master en ingénierie informatique, vous possédez une expérience professionnelle post-diplôme minimum de 4 ans dans des environnements HPC ou IA.

Vous parlez anglais et français couramment.
Vous appréciez analyser & résoudre des problèmes complexes
Vous aimez travailler en équipe.

Benefits & conditions

Environnement multiculturel

Cadre de travail convivial axé sur le bien-être et la santé
Engagement en faveur de la diversité et de l'inclusion
Politique dynamique de développement de carrière : plan de formation, mobilités internes, etc.

About the company

Nous recrutons un·e Architecte système et réseau afin de renforcer notre équipe AI Factory. OUTSCALE, marque de Dassault Systèmes, est un opérateur souverain et durable de l'Expérience en tant que Service qui offre à ses clients des environnements technologiques de confiance. Nous offrons des expériences uniques grâce au savoir-faire de nos équipes passionnées, qui se reflète notamment par la création de solutions de Business Expériences, le développement de notre propre orchestrateur Cloud, TINA OS, ou encore l'obtention de la qualification SecNumCloud. Le poste à pourvoir s'inscrit dans un environnement international, hautement distribué (Europe, Amérique du Nord, Asie) et orienté performance extrême, faible latence et scalabilité horizontale., Intégrer une entreprise scientifique au coeur de l'innovation technologique, portée par une forte croissance depuis plus de 40 ans Principaux avantages et bénéfices : - Environnement multiculturel - Cadre de travail convivial axé sur le bien-être et la santé - Engagement en faveur de la diversité et de l'inclusion - P olitique dynamique de développement de carrière : plan de formation, mobilités internes, etc. Vous souhaitez en savoir plus ? N'hésitez pas à nous suivre sur Linkedin et découvrez nos dernières offres et actus. Déclaration de diversité Dassault Systèmes, avant-gardiste en matière de technologie et d'innovation durable, s'efforce de créer des équipes toujours plus inclusives et diverses à travers le monde. Nous avons la forte conviction que nos employés sont notre atout numéro 1 et nous voulons que tous, se sentent libres d'être pleinement qui ils sont vraiment. Notre objectif est qu'ils ressentent fierté et sentiment d'appartenance. En tant qu'entreprise à la pointe du changement, il nous incombe de favoriser l'inclusion de tous et participer à création du monde de demain., Intégrer une entreprise scientifique au coeur de l'innovation technologique, portée par une forte croissance depuis plus de 40 ans, Dassault Systèmes, avant-gardiste en matière de technologie et d'innovation durable, s'efforce de créer des équipes toujours plus inclusives et diverses à travers le monde. Nous avons la forte conviction que nos employés sont notre atout numéro 1 et nous voulons que tous, se sentent libres d'être pleinement qui ils sont vraiment. Notre objectif est qu'ils ressentent fierté et sentiment d'appartenance. En tant qu'entreprise à la pointe du changement, il nous incombe de favoriser l'inclusion de tous et participer à création du monde de demain.