Site Reliability Engineer H/F

Scaleway

4 days ago

Role details

Contract type

Permanent contract

Employment type

Full-time (> 32 hours)

Working hours

Regular working hours

Languages

French

Experience level

Senior

Job location

Remote

Tech stack

Border Gateway Protocol

Linux

Distributed Systems

Fault Tolerance

Python

Site Reliability Engineering Practices

Scripting (Bash/Python/Go/Ruby)

Delivery Pipeline

Job description

Participer à la construction d'un cloud souverain européen, sur des infrastructures critiques et à grande échelle

Intervenir sur des problématiques de fiabilité, de performance et d'automatisation à fort impact pour les clients
Rejoindre un environnement d'ingénierie stimulant, collaboratif et en forte montée en maturité sur les pratiques SRE, Contexte du recrutement

Dans le cadre du renforcement de ses équipes techniques, Scaleway recrute un Site Reliability Engineer pour accompagner la montée en puissance de ses Network Products. Ce recrutement répond à un besoin de structuration autour des enjeux de disponibilité, d'observabilité, d'automatisation et de résilience des produits réseau critiques.

Le poste s'inscrit dans un environnement international, exigeant et fortement collaboratif. Le futur collaborateur interviendra en lien étroit avec les équipes de développement, produit et opérations afin d'intégrer la fiabilité dès la conception et tout au long du cycle de vie des services. Il rejoindra une organisation où les bonnes pratiques SRE sont partagées de manière transverse.

Le poste est rattaché à l'organisation SRE / Network Engineering de Scaleway.

Le poste vise à renforcer la fiabilité opérationnelle de produits réseau stratégiques du cloud Scaleway. Les enjeux portent sur l'automatisation de l'exploitation, l'amélioration du monitoring, la réduction de la charge opérationnelle, la gestion des incidents et la montée en maturité globale des pratiques SRE.

Vos missions principales / responsabilités seront les suivantes :

Développer des outils et frameworks d'automatisation pour simplifier la gestion de l'infrastructure
Concevoir et maintenir des pipelines CI/CD dans une logique Infrastructure as Code
Mettre en place et améliorer les systèmes de monitoring, d'alerting et d'observabilité
Contribuer à la gestion des incidents de production et aux analyses de causes racines
Participer aux revues d'architecture afin d'intégrer les enjeux de fiabilité en amont
Travailler avec les équipes de développement et produit pour renforcer la résilience des systèmes
Appliquer des principes de tolérance aux pannes, de scalabilité et d'efficacité opérationnelle
Contribuer à la diffusion des bonnes pratiques SRE au sein de l'organisation
Participer à l'amélioration continue de la performance et de la disponibilité des services

Requirements

Formation supérieure en informatique, systèmes, réseau ou infrastructures

Expérience confirmée en SRE, production, infrastructure ou fiabilité de systèmes distribués
Expérience significative sur des environnements de production à forte exigence de disponibilité ; une expérience dans le cloud ou sur des infrastructures à grande échelle est particulièrement appréciée

Compétences techniques :

Maîtrise des approches Infrastructure as Code et des pipelines CI/CD
Solide expertise des environnements Linux et du troubleshooting de production
Bonne maîtrise des outils de monitoring, métriques, logs et observabilité
Compétences en scripting / développement en Python, Go ou Rust
Bonne compréhension des architectures distribuées et des problématiques de résilience
Des connaissances en réseau (BGP, BGP EVPN, VXLAN) constituent un atout important

Compétences comportementales :

Esprit collaboratif et orientation collective
Curiosité, exigence technique et culture de l'amélioration continue
Autonomie et sens des priorités
Bonne communication écrite et orale
Capacité à interagir avec des interlocuteurs variés dans un environnement transverse et international

Déplacements à prévoir :

Déplacements ponctuels éventuels selon l'organisation

Benefits & conditions

Rémunération proposée : selon profil

Télétravail : 2J/semaine
Avantages : mutuelle, titres restaurant / Swile selon site, environnement de travail moderne, politique de mobilité interne, cadre international, dispositifs de bien-être collaborateurs

About the company

Actual Talent, Talent Acquisition Partner du groupe Actual, 5e acteur sur le marché de l'emploi en France, accompagne son client Scaleway, entreprise spécialisée dans le cloud computing et les infrastructures numériques souveraines. Filiale du groupe Iliad, Scaleway est aujourd'hui l'un des acteurs majeurs du cloud européen. L'entreprise développe et exploite une large gamme de services d'infrastructure à destination d'entreprises privées et d'acteurs publics, dans une logique de performance, de sécurité et de souveraineté. Afin d'accompagner la montée en puissance de ses produits stratégiques, Scaleway renforce ses équipes en charge de la fiabilité, de l'automatisation et de l'excellence opérationnelle., A propos de l'entreprise Actual Talent, Talent Acquisition Partner du groupe Actual, 5e acteur sur le marché de l'emploi en France, accompagne son client Scaleway, entreprise spécialisée dans le cloud computing et les infrastructures numériques souveraines.Filiale du groupe Iliad, Scaleway est aujourd'hui l'un des acteurs majeurs du cloud européen. L'entreprise développe et exploite une large gamme de services d'infrastructure à destination d'entreprises privées et d'acteurs publics, dans une logique de performance, de sécurité et de souveraineté. Afin d'accompagner la montée en puissance de ses produits stratégiques, Scaleway renforce ses équipes en charge de la fiabilité, de l'automatisation et de l'excellence opérationnelle.