Site Reliability Engineer H/F
Role details
Job location
Tech stack
Job description
Participer à la construction d'un cloud souverain européen, sur des infrastructures critiques et à grande échelle
- Intervenir sur des problématiques de fiabilité, de performance et d'automatisation à fort impact pour les clients
- Rejoindre un environnement d'ingénierie stimulant, collaboratif et en forte montée en maturité sur les pratiques SRE, Contexte du recrutement
Dans le cadre du renforcement de ses équipes techniques, Scaleway recrute un Site Reliability Engineer pour accompagner la montée en puissance de ses Network Products. Ce recrutement répond à un besoin de structuration autour des enjeux de disponibilité, d'observabilité, d'automatisation et de résilience des produits réseau critiques.
Le poste s'inscrit dans un environnement international, exigeant et fortement collaboratif. Le futur collaborateur interviendra en lien étroit avec les équipes de développement, produit et opérations afin d'intégrer la fiabilité dès la conception et tout au long du cycle de vie des services. Il rejoindra une organisation où les bonnes pratiques SRE sont partagées de manière transverse.
Le poste est rattaché à l'organisation SRE / Network Engineering de Scaleway.
Le poste vise à renforcer la fiabilité opérationnelle de produits réseau stratégiques du cloud Scaleway. Les enjeux portent sur l'automatisation de l'exploitation, l'amélioration du monitoring, la réduction de la charge opérationnelle, la gestion des incidents et la montée en maturité globale des pratiques SRE.
Vos missions principales / responsabilités seront les suivantes :
- Développer des outils et frameworks d'automatisation pour simplifier la gestion de l'infrastructure
- Concevoir et maintenir des pipelines CI/CD dans une logique Infrastructure as Code
- Mettre en place et améliorer les systèmes de monitoring, d'alerting et d'observabilité
- Contribuer à la gestion des incidents de production et aux analyses de causes racines
- Participer aux revues d'architecture afin d'intégrer les enjeux de fiabilité en amont
- Travailler avec les équipes de développement et produit pour renforcer la résilience des systèmes
- Appliquer des principes de tolérance aux pannes, de scalabilité et d'efficacité opérationnelle
- Contribuer à la diffusion des bonnes pratiques SRE au sein de l'organisation
- Participer à l'amélioration continue de la performance et de la disponibilité des services
Requirements
Formation supérieure en informatique, systèmes, réseau ou infrastructures
- Expérience confirmée en SRE, production, infrastructure ou fiabilité de systèmes distribués
- Expérience significative sur des environnements de production à forte exigence de disponibilité ; une expérience dans le cloud ou sur des infrastructures à grande échelle est particulièrement appréciée
Compétences techniques :
- Maîtrise des approches Infrastructure as Code et des pipelines CI/CD
- Solide expertise des environnements Linux et du troubleshooting de production
- Bonne maîtrise des outils de monitoring, métriques, logs et observabilité
- Compétences en scripting / développement en Python, Go ou Rust
- Bonne compréhension des architectures distribuées et des problématiques de résilience
- Des connaissances en réseau (BGP, BGP EVPN, VXLAN) constituent un atout important
Compétences comportementales :
- Esprit collaboratif et orientation collective
- Curiosité, exigence technique et culture de l'amélioration continue
- Autonomie et sens des priorités
- Bonne communication écrite et orale
- Capacité à interagir avec des interlocuteurs variés dans un environnement transverse et international
Déplacements à prévoir :
Déplacements ponctuels éventuels selon l'organisation
Benefits & conditions
Rémunération proposée : selon profil
- Télétravail : 2J/semaine
- Avantages : mutuelle, titres restaurant / Swile selon site, environnement de travail moderne, politique de mobilité interne, cadre international, dispositifs de bien-être collaborateurs