Senior DevOps Engineer - AI Platform / Kubernetes / AWS / GPU Infrastructure - CDI H/F
Role details
Job location
Tech stack
Job description
Dans le cadre d'un programme stratégique d'industrialisation de l'IA Générative à l'échelle Groupe, nous recherchons un Senior DevOps / Platform Engineer capable de concevoir, sécuriser et scaler les infrastructures supportant les plateformes Mistral AI et Prisme AI dans un environnement bancaire critique et fortement réglementé.
Le programme IA Gen vise à construire une plateforme souveraine d'IA générative et agentique capable de supporter des cas d'usage massifs, avec de fortes contraintes :
- haute disponibilité
- scalabilité GPU
- sécurité enterprise
- observabilité avancée
- conformité réglementaire
- optimisation des performances et des coûts
Vous rejoindrez une équipe transverse composée d'AI Engineers, Platform Engineers, Security Engineers, Architects, MLOps et équipes Infrastructure.
Enjeux techniques du programme
-
Déploiement enterprise-scale de plateformes LLM
-
Orchestration de workloads IA intensifs CPU/GPU
-
Industrialisation de pipelines MLOps / LLMOps
-
Scalabilité Kubernetes multi-environnements
-
Observabilité temps réel des systèmes IA
-
Sécurisation des infrastructures GenAI
-
Déploiement hybride AWS + On-Prem
-
Automatisation complète des déploiements IA
-
Optimisation inference serving & consommation GPU, Infrastructure & Platform Engineering
-
Concevoir et maintenir des infrastructures cloud et on-prem hautement disponibles pour les plateformes IA générative
-
Déployer et administrer des clusters Kubernetes dédiés aux workloads IA et LLM
-
Optimiser l'allocation des ressources :
- CPU
- GPU
- mémoire
- stockage
- networking
- Gérer la scalabilité horizontale et verticale des plateformes IA
- Participer à l'architecture des plateformes de serving LLM et inference APIs
DevOps / CI-CD / Automation
- Construire et industrialiser des pipelines CI/CD pour :
- modèles IA
- APIs IA
- applications agentiques
- composants MLOps
- Automatiser les déploiements et rollback sécurisés
- Mettre en place des stratégies GitOps et Infrastructure as Code
- Garantir :
- reproductibilité
- traçabilité
- auditabilité
- résilience des déploiements
Kubernetes / Container Platform
- Administrer des environnements Kubernetes complexes et distribués
- Déployer des architectures containerisées haute performance
- Optimiser :
- scheduling
- autoscaling
- GPU allocation
- pod resiliency
- service mesh
- Travailler sur :
- Helm
- Operators
- ingress
- networking policies
- workload isolation
Observabilité / Monitoring / Reliability
- Mettre en place des stacks d'observabilité avancées :
- Prometheus
- Grafana
- ELK
- OpenTelemetry
- distributed tracing
- Définir des métriques de performance spécifiques aux workloads IA :
- latency
- inference throughput
- GPU utilization
- token generation rate
- uptime
- Implémenter :
- alerting
- incident response
- anomaly detection
- capacity planning
Sécurité & Conformité
- Implémenter les standards sécurité enterprise :
- IAM
- RBAC
- secrets management
- encryption
- network segmentation
- Garantir la conformité :
- RGPD
- AI Act
- auditabilité
- traçabilité
- Participer à la sécurisation des plateformes GenAI et des flux de données sensibles
Requirements
- 5+ années d'expérience en DevOps / Platform Engineering / SRE
- Très forte expertise Kubernetes en production
- Expérience solide AWS + environnements hybrides
- Maîtrise des pipelines CI/CD et Infrastructure as Code
- Expérience sur des plateformes critiques à forte volumétrie
- Bonne compréhension des problématiques MLOps / LLMOps
- Expérience workloads GPU ou IA fortement appréciée
- Background banque / finance / environnement réglementé apprécié
Très gros plus
- Expérience plateformes IA Générative
- Déploiement de modèles LLM self-hosted
- GPU scheduling / NVIDIA stack
- Kubernetes GPU operators
Benefits & conditions
- GitLab CI
- GitHub Actions
- ArgoCD
- Terraform
- Ansible
Monitoring & Observability
- Prometheus
- Grafana
- ELK
- Loki
- OpenTelemetry
AI / LLM Platform
- Mistral AI
- Prisme AI
- LLM serving infrastructure
- GPU workloads
- Inference APIs