Ingénieur SRE / Exploitation Systèmes (F/H)
Role details
Job location
Tech stack
Job description
Au sein de la Direction des Systèmes d?Information (DSI), le département Opérations garantit le maintien en conditions opérationnelles (MCO), la fiabilité, la disponibilité et la performance de l?ensemble des services techniques fournis aux clients finaux.
Pour accompagner la forte croissance et renforcer la résilience des plateformes opérationnelles, l?entreprise recherche un :
Ce rôle est au c?ur des services critiques 24/7. Il combine pratiques SRE, ingénierie d?exploitation, automatisation, système, monitoring et coordination transverse. Vous interviendrez sur des environnements hybrides (cloud + on-premise), à forte exigence de disponibilité et de performance.
Missions :
- Gestion des incidents : Piloter les incidents majeurs et coordonner l?ensemble des équipes techniques jusqu?au rétablissement complet du service.
Mener les analyses post-incident, identifier les causes racines, proposer et suivre les actions préventives.
Formaliser et optimiser les processus et procédures opérationnelles.
- Observabilité et monitoring : Maintenir et faire évoluer les outils de supervision, d?observabilité et d?alerting.
Développer dashboards, métriques, logs et traces pour une visibilité complète sur l?état de santé des services.
Détecter faiblesses techniques, dépendances critiques et risques opérationnels.
Définir et suivre SLI/SLO avec les équipes produit et les parties prenantes métier.
- Automatisation et industrialisation : Automatiser les tâches répétitives pour réduire le toil opérationnel.
Mettre en place et améliorer les pipelines CI/CD et l?Infrastructure as Code.
Collaboration étroite avec les équipes de développement pour intégrer les bonnes pratiques SRE dans le cycle de vie logiciel.
Standardiser configurations, environnements et processus pour améliorer la fiabilité globale.
- Coordination pluridisciplinaire : Support niveau 2/3, en lien direct avec les équipes d?exploitation H24.
Coopération avec les équipes IT, les développeurs et les responsables produit pour corriger les incidents et prévenir les récidives.
Contribution au respect des engagements techniques, contractuels et calendaires.
Application des politiques de sécurité et maintien en condition de sécurité (MCS) des systèmes en lien avec la sécurité SSI.
Requirements
Bac+5 en informatique, systèmes ou équivalent.
3 à 5 ans d?expérience en exploitation, ingénierie système ou SRE dans des environnements critiques.
Compétences techniques : Systèmes & scripting : Linux, Bash, automatisation.
Conteneurs & orchestration : Docker, Kubernetes.
CI/CD & IaC : Git / GitLab, Ansible.
Cloud : connaissances AWS et/ou Azure.
Infrastructure IT : stockage, virtualisation, bases de données, réseaux.
Observabilité & monitoring : Zabbix, Grafana, CloudWatch, Prometheus, ELK / OpenSearch.
Compétences transverses : Excellente capacité d?analyse en contexte critique.
Rigueur, autonomie, proactivité et sens des responsabilités.
Aisance de communication, travail en équipe, partage de connaissances.
Capacité à coordonner plusieurs acteurs dans des environnements techniques complexes.