Ingénieur Infrastructure IA H/F

OUICODING

Paris, France

6 days ago

Role details

Contract type

Permanent contract

Employment type

Full-time (> 32 hours)

Working hours

Regular working hours

Languages

English, French

Experience level

Intermediate

Job location

Paris, France

Tech stack

Linux

File Systems

Ethernet

General Parallel File Systems

InfiniBand

Network Architecture

Remote Direct Memory Access

Network Switches

Kubernetes

Low Latency

Nvme

Job description

Vous travaillerez dans le cadre du déploiement et de l'exploitation d'une AI Factory à très grande échelle, reposant sur plusieurs clusters. L'AI Factory s'appuie sur des architectures de stockage haute performance capables d'alimenter efficacement des clusters GPU NVL72, avec des exigences fortes en débit, latence et parallélisme I/O. Vous êtes en charge de l'architecture, de l'optimisation et de l'évolution des infrastructures réseaux, stockage, systèmes et GPU fabrics alimentant des charges IA critiques (training, fine-tuning, inference). L'environnement est international, hautement distribué (Europe, Amérique du Nord, Asie) et orienté performance extrême, faible latence et scalabilité horizontale.

Architecture & design de la GPU Fabric :

Concevoir et faire évoluer des architectures réseau haut débit, faible latence, adaptées aux NVL72 et aux workloads IA massivement parallèles
Définir les topologies réseau (leaf-spine, fat-tree, dragonfly le cas échéant) pour : Interconnexion intra-NVL72, Scale-out multi-racks / multi-clusters
Sélectionner et valider les technologies : InfiniBand HDR / NDR, Ethernet Spectrum / RoCEv2, Dimensionner les fabrics pour des usages IA à très grande échelle (NCCL-heavy, all-reduce intensif)
Identifier et lever les goulots d'étranglement réseau, mémoire et CPU/GPU

Stockage : -Concevoir des architectures end-to-end data -> réseau -> GPU

Veiller à ce que le storage ne soit pas un goulot d'étranglement pour les workloads IA distribués
Collaborer au design et à l'intégration de solutions de storage haute performance : Systèmes de fichiers parallèles (Lustre, GPFS / Spectrum Scale, BeeGFS), Object storage haute performance
Participer à l'optimisation des I/O data (accès concurrents, cache NVMe, burst buffers)
Assurer la cohérence GPU scheduling / accès data dans Kubernetes

Intégration Kubernetes & workloads IA :

Concevoir l'intégration réseau de clusters GPU dans des environnements Kubernetes
Gérer l'exposition et l'isolation des interfaces RDMA : Device Plugin, Network Operator / CNI avancés
Garantir le bon fonctionnement des workloads conteneurisés IA : Training distribué, Jobs MPI / NCCL, Pipelines data / GPU

Requirements

Formation : ingénieur ou équivalent BAC+5.
Expérience professionnelle : Minimum 4 ans d'expérience pratique avec les technologies RDMA (GPUDirect, RoCE, InfiniBand) dans des environnements HPC ou IA.
Solide expérience en architecture réseau HPC / IA / GPU
Maîtrise avancée de : InfiniBand & RoCEv2, RDMA, GPUDirect, NCCL, Architectures GPU scale-up / scale-out, Appétence marquée pour les architectures de stockage haute performance, Bonne compréhension des enjeux de data locality, parallel I/O et débit massif, Capacité à raisonner performance globale : stockage / réseau / GPU / workload IA
Bonne connaissance de : Kubernetes en contexte GPU, Linux bas niveau (NUMA, IRQ, CPU pinning)
Capacité à diagnostiquer des problèmes complexes de performance distribuée
Langues : français et anglais courants (écrit et oral).