Senior DevOps Engineer - AI Platform / Kubernetes / AWS / GPU Infrastructure - CDI H/F

Collective

Canton of Montrouge, France

1 month ago

Role details

Contract type

Permanent contract

Employment type

Full-time (> 32 hours)

Working hours

Regular working hours

Languages

French

Experience level

Senior

Job location

Canton of Montrouge, France

Tech stack

API

Artificial Intelligence

Amazon Web Services (AWS)

Cloud Computing

Continuous Integration

DevOps

Github

Identity and Access Management

Uptime

Performance Tuning

Role-Based Access Control

Reliability Engineering

Ansible

Prometheus

Data Streaming

Istio

Delivery Pipeline

Large Language Models

Generative AI

Containerization

Gitlab-ci

Kubernetes

Machine Learning Operations

Terraform

Docker

Job description

Dans le cadre d'un programme stratégique d'industrialisation de l'IA Générative à l'échelle Groupe, nous recherchons un Senior DevOps / Platform Engineer capable de concevoir, sécuriser et scaler les infrastructures supportant les plateformes Mistral AI et Prisme AI dans un environnement bancaire critique et fortement réglementé.

Le programme IA Gen vise à construire une plateforme souveraine d'IA générative et agentique capable de supporter des cas d'usage massifs, avec de fortes contraintes :

haute disponibilité
scalabilité GPU
sécurité enterprise
observabilité avancée
conformité réglementaire
optimisation des performances et des coûts

Vous rejoindrez une équipe transverse composée d'AI Engineers, Platform Engineers, Security Engineers, Architects, MLOps et équipes Infrastructure.

Enjeux techniques du programme

Déploiement enterprise-scale de plateformes LLM
Orchestration de workloads IA intensifs CPU/GPU
Industrialisation de pipelines MLOps / LLMOps
Scalabilité Kubernetes multi-environnements
Observabilité temps réel des systèmes IA
Sécurisation des infrastructures GenAI
Déploiement hybride AWS + On-Prem
Automatisation complète des déploiements IA
Optimisation inference serving & consommation GPU, Infrastructure & Platform Engineering
Concevoir et maintenir des infrastructures cloud et on-prem hautement disponibles pour les plateformes IA générative
Déployer et administrer des clusters Kubernetes dédiés aux workloads IA et LLM
Optimiser l'allocation des ressources :

CPU
GPU
mémoire
stockage
networking

Gérer la scalabilité horizontale et verticale des plateformes IA
Participer à l'architecture des plateformes de serving LLM et inference APIs

DevOps / CI-CD / Automation

Construire et industrialiser des pipelines CI/CD pour :

modèles IA
APIs IA
applications agentiques
composants MLOps

Automatiser les déploiements et rollback sécurisés
Mettre en place des stratégies GitOps et Infrastructure as Code
Garantir :

reproductibilité
traçabilité
auditabilité
résilience des déploiements

Kubernetes / Container Platform

Administrer des environnements Kubernetes complexes et distribués
Déployer des architectures containerisées haute performance
Optimiser :

scheduling
autoscaling
GPU allocation
pod resiliency
service mesh

Travailler sur :

Helm
Operators
ingress
networking policies
workload isolation

Observabilité / Monitoring / Reliability

Mettre en place des stacks d'observabilité avancées :

Prometheus
Grafana
ELK
OpenTelemetry
distributed tracing

Définir des métriques de performance spécifiques aux workloads IA :

latency
inference throughput
GPU utilization
token generation rate
uptime

Implémenter :

alerting
incident response
anomaly detection
capacity planning

Sécurité & Conformité

Implémenter les standards sécurité enterprise :

IAM
RBAC
secrets management
encryption
network segmentation

Garantir la conformité :

RGPD
AI Act
auditabilité
traçabilité

Participer à la sécurisation des plateformes GenAI et des flux de données sensibles

Requirements

5+ années d'expérience en DevOps / Platform Engineering / SRE
Très forte expertise Kubernetes en production
Expérience solide AWS + environnements hybrides
Maîtrise des pipelines CI/CD et Infrastructure as Code
Expérience sur des plateformes critiques à forte volumétrie
Bonne compréhension des problématiques MLOps / LLMOps
Expérience workloads GPU ou IA fortement appréciée
Background banque / finance / environnement réglementé apprécié

Très gros plus

Expérience plateformes IA Générative
Déploiement de modèles LLM self-hosted
GPU scheduling / NVIDIA stack
Kubernetes GPU operators

Benefits & conditions

GitLab CI
GitHub Actions
ArgoCD
Terraform
Ansible

Monitoring & Observability

Prometheus
Grafana
ELK
Loki
OpenTelemetry

AI / LLM Platform

Mistral AI
Prisme AI
LLM serving infrastructure
GPU workloads
Inference APIs

Role details

Job location

Tech stack

Job description

Requirements

Benefits & conditions

Apply for this position

Good distractions

Moments

Videos View all