Site Reliability Engineer (SRE) - Storage
Role details
Job location
Tech stack
Job description
En tant que Site Reliability Engineer (SRE), vous jouerez un rôle clé pour assurer la robustesse et la performance de nos services. Rattaché(e) à un Lead SRE (Engineering Manager), vous contribuerez à :
- Améliorer en continu la fiabilité et l'évolutivité de nos plateformes.
- Automatiser l'infrastructure pour optimiser les déploiements et réduire l'intervention humaine.
- Collaborer avec les équipes Dev, Produit et Ops pour garantir des services performants et résilients.
Vous intégrerez également la SRE Guild, un collectif dédié aux meilleures pratiques et à l'innovation technique. Vos missions Automatisation & Outils
- Développer des outils et frameworks pour fluidifier les déploiements et la gestion des infrastructures.
- Automatiser les tâches répétitives pour améliorer l'efficacité et la fiabilité.
Monitoring & Alerting
- Mettre en place des indicateurs clés (SLO, KPI) pour suivre la performance des services.
- Optimiser les systèmes de monitoring et alerting afin de minimiser la fatigue d'alerte.
Gestion des incidents
- Identifier, diagnostiquer et résoudre rapidement les incidents en production.
- Analyser les causes profondes et implémenter des mesures préventives.
Ingénierie de la fiabilité
- Appliquer les meilleures pratiques (tolérance aux pannes, load balancing, redondance) pour renforcer la résilience des systèmes.
- Optimiser l'utilisation des ressources pour réduire la consommation énergétique et améliorer les performances.
Collaboration & Partage
- Travailler en synergie avec les équipes Dev & Produit pour intégrer la fiabilité dès la conception.
- Participer aux revues d'architecture et partager les bonnes pratiques SRE.
Requirements
Stack Technique Langages : Python, Go, Rust Infra & DevOps : GitLab, Linux, Kubernetes, Container images Base de données : PostgreSQL Monitoring : OpenMetrics, OpenTelemetry Stockage : S3, CephFS, ZFS, * Expérience en Infrastructure as Code (IaC) et CI/CD.
- Maîtrise des outils de monitoring et logging.
- Bonne connaissance des systèmes Linux et du troubleshooting en production.
- Capacité à travailler en anglais et en équipe.
Un plus
- Expérience en développement (Go, Rust).
- Sens du developer experience et appétence pour le coaching.
- Expérience en stockage distribué (S3, CephFS, ZFS).
LES COULISSES Le process de recrutement Call de découverte avec un recruteur (30 min) Entretien (1h) - Échange avec le Head of SRE sur vos compétences techniques et votre approche du rôle Entretien avec les managers (1h) - En visio ou en présentiel pour approfondir votre expérience et votre fit avec l'équipe Entretien RH & visite - Rencontre avec l'équipe RH, découverte de nos locaux et moment d'échange avec vos futurs collègues
Benefits & conditions
Si vous ne vous voyez pas cocher toutes les cases, n'hésitez pas à postuler tout de même. Ne vous limitez pas à une description de poste - on ne sait jamais ! Scaleway \u007C Scaleway Blog\u007C Scaleway sur X