Ingénieur DevOps / Platform Engineer
Role details
Job location
Tech stack
Job description
Nous recherchons un ingénieur DevOps pour nos plateformes afin de les piloter, les opérer au quotidien, et d'en faire un levier d'autonomie pour les équipes de développement., * Proxmox VE - hyperviseur hébergeant une dizaine de VMs (services en cours de migration vers le cloud)
- VMware - cluster de virtualisation on-premise local (hors OVH)
Réseau & Exposition
- Reverse proxy et terminaison TLS - Let's Encrypt, DNS-01
- Haute disponibilité réseau - VIP, VRRP, failover automatique
- Web Application Firewall (WAF)
Observabilité
- VictoriaMetrics (cluster : vminsert/vmstorage/vmselect) - métriques
- VictoriaLogs - centralisation des logs
- Grafana - dashboards
- Alerting - Alertmanager
Stockage
- S3 Object Storage
- Ceph - Volumes partagés
- DBaaS - PostgreSQL 18, MySQL 8, MongoDB 8 (clusters managés HA)
Sécurité & Accès
- CrowdSec - protection anti-intrusion
- Passbolt - gestion des secrets d'équipe
- VPN - Point à point et nomade
- Services hébergés : outils internes (ticketing, wiki, monitoring, gestion des secrets) et plusieurs solutions client
Missions principales
Piloter, opérer et faire évoluer cette infrastructure, tout en accompagnant les équipes de développement vers une autonomie maximale sur la plateforme.
Responsabilités
- Exploitation et maintien en condition opérationnelle (MCO)
- Superviser la disponibilité et les performances des clusters Docker Swarm et des services hébergés
- Gérer les incidents et problèmes : diagnostic, résolution, post-mortem, actions correctives
- Maintenir les stacks Swarm à jour (images Docker, dépendances, OS Flatcar)
- Opérer les bases de données OVH managées (PostgreSQL, MySQL, MongoDB) : surveillance, optimisation des performances, gestion des accès
- Administrer les sauvegardes multi-tier (S3, scripts PostgreSQL/MySQL/MongoDB) et tester les restaurations
- Surveiller les métriques et alertes Grafana/VictoriaMetrics ; ajuster les seuils et dashboards
- Gérer les certificats TLS (Let's Encrypt DNS-01, rotation, surveillance des expirations)
- Opérer le réseau OVH (VRack, VLANs, load balancers, IPs flottantes)
- Evolution de l'infrastructure
- Faire évoluer l'infrastructure Terraform (nouvelles ressources, refactoring, mise à jour des providers)
- Déployer et intégrer de nouveaux services dans la plateforme (Traefik, WAF, monitoring, secrets)
- Améliorer la résilience et la haute disponibilité des clusters
- Optimiser les coûts OVH (rightsizing, analyse des ressources inutilisées)
- Assurer la veille technologique et proposer des évolutions pertinentes (outillage, sécurité, observabilité)
- Contribuer à la mise en place d'une CI/CD pour l'infrastructure elle-même (pipeline Terraform, tests de configuration)
- Accompagnement des équipes de développement
Objectif clé : donner aux développeurs un maximum d'autonomie sur la plateforme, sans les surcharger de complexité opérationnelle.
- Définir et documenter les patterns de déploiement (docker-compose, labels Traefik, health checks, stratégies de mise à jour)
- Créer et maintenir des templates de stacks Swarm réutilisables pour les nouvelles applications
- Accompagner les équipes dans l'intégration de leurs applications à l'infrastructure (exposition Traefik, monitoring, logging, backups)
- Former les développeurs aux pratiques DevOps : GitOps, observabilité, gestion des secrets, bonnes pratiques de conteneurisation
- Définir des runbooks et procédures d'exploitation clairs pour que les équipes puissent intervenir de façon autonome sur les opérations courantes
- Mettre en place des environnements de développement et de test proches de la production
- Sécurité opérationnelle
- Appliquer et maintenir la politique de sécurité sur l'infrastructure (réseau, accès, secrets)
- Gérer les identités et accès (Docker secrets, Passbolt, clés SSH, comptes OVH)
- Maintenir et affiner les règles WAF (CrowdSec, ModSecurity)
- Suivre les CVE et appliquer les correctifs de sécurité (OS, images Docker, dépendances)
- Participer aux audits de sécurité et implémenter les recommandations
- Documenter les procédures de réponse aux incidents de sécurité
- Management & Documentation - transversal
- Encadrer et former l'alternant DevOps (définition des objectifs pédagogiques, suivi de progression, bilans d'alternance)
- Maintenir la documentation technique à jour (architecture, runbooks, procédures d'exploitation, onboarding)
- Participer aux rituels d'équipe et assurer le reporting technique à la direction, * Une infrastructure existante, documentée et structurée, prête à être opérée et améliorée
- Des responsabilités réelles avec un périmètre technique large et varié
- Un accès direct aux décisions techniques et architecturales
- Des équipes de développement engagées, avec qui construire une vraie culture DevOps
- Un contexte d'amélioration continue : la plateforme évolue, les pratiques aussi
Requirements
Infrastructure & Cloud
- Maîtrise de Terraform (IaC, gestion du state, modules, providers OpenStack/OVH)
- Expérience avec la conteneurisation en production
- Bonne connaissance des concepts réseau (VLANs, load balancing, BGP/VRRP, DNS)
- Pratique des environnements Linux (idéalement CoreOS/Flatcar) en production
Conteneurisation & Déploiement
- Maîtrise de Docker et Docker Compose / Swarm
- Expérience avec un reverse proxy (Traefik, Nginx ou équivalent)
- Compréhension des stratégies de déploiement (rolling update, blue/green, health checks)
Observabilité
- Expérience avec une stack de monitoring (Prometheus/VictoriaMetrics + Grafana ou équivalent)
- Expérience avec la centralisation de logs (Loki, ELK, VictoriaLogs ou équivalent)
Scripting & Automatisation
- Scripting Bash (niveau intermédiaire à avancé)
- Connaissance des outils CI/CD (GitLab CI, GitHub Actions ou équivalent)
Stockage & Bases de données
- Notions d'administration de PostgreSQL, MySQL et/ou MongoDB, * Connaissance d'OVH Public Cloud (OpenStack, OVH API)
- Expérience avec WAF/sécurité applicative (ModSecurity, CrowdSec, OWASP CRS)
- Expérience avec des pratiques GitOps
- Connaissance de Flatcar Linux / Ignition / Butane
- Savoir-être
- Pédagogie et sens du service : capacité à rendre la plateforme accessible aux développeurs, à documenter clairement, à former
- Autonomie et proactivité : capacité à identifier les problèmes avant qu'ils impactent la production, à proposer des améliorations
- Rigueur : soin apporté à la documentation, aux procédures, à la reproductibilité des changements
- Communication : à l'aise aussi bien avec des équipes techniques que pour rendre compte à la direction
- Esprit d'équipe : goût du travail collaboratif avec les équipes de développement et du partage de connaissance
Stack technique en place
Infrastructure as Code
- Terraform (OVH OpenStack)
- Flatcar Linux (CoreOS)
Compute & Orchestration
- Docker Swarm