Senior DevOps Engineer - AI Platform / Kubernetes / AWS / GPU Infrastructure - CDI H/F

Collective
Canton of Montrouge, France
2 days ago

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
French
Experience level
Senior

Job location

Canton of Montrouge, France

Tech stack

API
Artificial Intelligence
Amazon Web Services (AWS)
Cloud Computing
Continuous Integration
DevOps
Github
Identity and Access Management
Uptime
Performance Tuning
Role-Based Access Control
Reliability Engineering
Ansible
Prometheus
Data Streaming
Istio
Delivery Pipeline
Large Language Models
Generative AI
Containerization
Gitlab-ci
Kubernetes
Machine Learning Operations
Terraform
Docker

Job description

Dans le cadre d'un programme stratégique d'industrialisation de l'IA Générative à l'échelle Groupe, nous recherchons un Senior DevOps / Platform Engineer capable de concevoir, sécuriser et scaler les infrastructures supportant les plateformes Mistral AI et Prisme AI dans un environnement bancaire critique et fortement réglementé.

Le programme IA Gen vise à construire une plateforme souveraine d'IA générative et agentique capable de supporter des cas d'usage massifs, avec de fortes contraintes :

  • haute disponibilité
  • scalabilité GPU
  • sécurité enterprise
  • observabilité avancée
  • conformité réglementaire
  • optimisation des performances et des coûts

Vous rejoindrez une équipe transverse composée d'AI Engineers, Platform Engineers, Security Engineers, Architects, MLOps et équipes Infrastructure.

Enjeux techniques du programme

  • Déploiement enterprise-scale de plateformes LLM

  • Orchestration de workloads IA intensifs CPU/GPU

  • Industrialisation de pipelines MLOps / LLMOps

  • Scalabilité Kubernetes multi-environnements

  • Observabilité temps réel des systèmes IA

  • Sécurisation des infrastructures GenAI

  • Déploiement hybride AWS + On-Prem

  • Automatisation complète des déploiements IA

  • Optimisation inference serving & consommation GPU, Infrastructure & Platform Engineering

  • Concevoir et maintenir des infrastructures cloud et on-prem hautement disponibles pour les plateformes IA générative

  • Déployer et administrer des clusters Kubernetes dédiés aux workloads IA et LLM

  • Optimiser l'allocation des ressources :

  • CPU
  • GPU
  • mémoire
  • stockage
  • networking
  • Gérer la scalabilité horizontale et verticale des plateformes IA
  • Participer à l'architecture des plateformes de serving LLM et inference APIs

DevOps / CI-CD / Automation

  • Construire et industrialiser des pipelines CI/CD pour :
  • modèles IA
  • APIs IA
  • applications agentiques
  • composants MLOps
  • Automatiser les déploiements et rollback sécurisés
  • Mettre en place des stratégies GitOps et Infrastructure as Code
  • Garantir :
  • reproductibilité
  • traçabilité
  • auditabilité
  • résilience des déploiements

Kubernetes / Container Platform

  • Administrer des environnements Kubernetes complexes et distribués
  • Déployer des architectures containerisées haute performance
  • Optimiser :
  • scheduling
  • autoscaling
  • GPU allocation
  • pod resiliency
  • service mesh
  • Travailler sur :
  • Helm
  • Operators
  • ingress
  • networking policies
  • workload isolation

Observabilité / Monitoring / Reliability

  • Mettre en place des stacks d'observabilité avancées :
  • Prometheus
  • Grafana
  • ELK
  • OpenTelemetry
  • distributed tracing
  • Définir des métriques de performance spécifiques aux workloads IA :
  • latency
  • inference throughput
  • GPU utilization
  • token generation rate
  • uptime
  • Implémenter :
  • alerting
  • incident response
  • anomaly detection
  • capacity planning

Sécurité & Conformité

  • Implémenter les standards sécurité enterprise :
  • IAM
  • RBAC
  • secrets management
  • encryption
  • network segmentation
  • Garantir la conformité :
  • RGPD
  • AI Act
  • auditabilité
  • traçabilité
  • Participer à la sécurisation des plateformes GenAI et des flux de données sensibles

Requirements

  • 5+ années d'expérience en DevOps / Platform Engineering / SRE
  • Très forte expertise Kubernetes en production
  • Expérience solide AWS + environnements hybrides
  • Maîtrise des pipelines CI/CD et Infrastructure as Code
  • Expérience sur des plateformes critiques à forte volumétrie
  • Bonne compréhension des problématiques MLOps / LLMOps
  • Expérience workloads GPU ou IA fortement appréciée
  • Background banque / finance / environnement réglementé apprécié

Très gros plus

  • Expérience plateformes IA Générative
  • Déploiement de modèles LLM self-hosted
  • GPU scheduling / NVIDIA stack
  • Kubernetes GPU operators

Benefits & conditions

  • GitLab CI
  • GitHub Actions
  • ArgoCD
  • Terraform
  • Ansible

Monitoring & Observability

  • Prometheus
  • Grafana
  • ELK
  • Loki
  • OpenTelemetry

AI / LLM Platform

  • Mistral AI
  • Prisme AI
  • LLM serving infrastructure
  • GPU workloads
  • Inference APIs

Apply for this position