Site Reliability Engineer H/F

Scaleway
4 days ago

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
French
Experience level
Senior

Job location

Remote

Tech stack

Border Gateway Protocol
Linux
Distributed Systems
Fault Tolerance
Python
Site Reliability Engineering Practices
Scripting (Bash/Python/Go/Ruby)
Delivery Pipeline

Job description

Participer à la construction d'un cloud souverain européen, sur des infrastructures critiques et à grande échelle

  • Intervenir sur des problématiques de fiabilité, de performance et d'automatisation à fort impact pour les clients
  • Rejoindre un environnement d'ingénierie stimulant, collaboratif et en forte montée en maturité sur les pratiques SRE, Contexte du recrutement

Dans le cadre du renforcement de ses équipes techniques, Scaleway recrute un Site Reliability Engineer pour accompagner la montée en puissance de ses Network Products. Ce recrutement répond à un besoin de structuration autour des enjeux de disponibilité, d'observabilité, d'automatisation et de résilience des produits réseau critiques.

Le poste s'inscrit dans un environnement international, exigeant et fortement collaboratif. Le futur collaborateur interviendra en lien étroit avec les équipes de développement, produit et opérations afin d'intégrer la fiabilité dès la conception et tout au long du cycle de vie des services. Il rejoindra une organisation où les bonnes pratiques SRE sont partagées de manière transverse.

Le poste est rattaché à l'organisation SRE / Network Engineering de Scaleway.

Le poste vise à renforcer la fiabilité opérationnelle de produits réseau stratégiques du cloud Scaleway. Les enjeux portent sur l'automatisation de l'exploitation, l'amélioration du monitoring, la réduction de la charge opérationnelle, la gestion des incidents et la montée en maturité globale des pratiques SRE.

Vos missions principales / responsabilités seront les suivantes :

  • Développer des outils et frameworks d'automatisation pour simplifier la gestion de l'infrastructure
  • Concevoir et maintenir des pipelines CI/CD dans une logique Infrastructure as Code
  • Mettre en place et améliorer les systèmes de monitoring, d'alerting et d'observabilité
  • Contribuer à la gestion des incidents de production et aux analyses de causes racines
  • Participer aux revues d'architecture afin d'intégrer les enjeux de fiabilité en amont
  • Travailler avec les équipes de développement et produit pour renforcer la résilience des systèmes
  • Appliquer des principes de tolérance aux pannes, de scalabilité et d'efficacité opérationnelle
  • Contribuer à la diffusion des bonnes pratiques SRE au sein de l'organisation
  • Participer à l'amélioration continue de la performance et de la disponibilité des services

Requirements

Formation supérieure en informatique, systèmes, réseau ou infrastructures

  • Expérience confirmée en SRE, production, infrastructure ou fiabilité de systèmes distribués
  • Expérience significative sur des environnements de production à forte exigence de disponibilité ; une expérience dans le cloud ou sur des infrastructures à grande échelle est particulièrement appréciée

Compétences techniques :

  • Maîtrise des approches Infrastructure as Code et des pipelines CI/CD
  • Solide expertise des environnements Linux et du troubleshooting de production
  • Bonne maîtrise des outils de monitoring, métriques, logs et observabilité
  • Compétences en scripting / développement en Python, Go ou Rust
  • Bonne compréhension des architectures distribuées et des problématiques de résilience
  • Des connaissances en réseau (BGP, BGP EVPN, VXLAN) constituent un atout important

Compétences comportementales :

  • Esprit collaboratif et orientation collective
  • Curiosité, exigence technique et culture de l'amélioration continue
  • Autonomie et sens des priorités
  • Bonne communication écrite et orale
  • Capacité à interagir avec des interlocuteurs variés dans un environnement transverse et international

Déplacements à prévoir :

Déplacements ponctuels éventuels selon l'organisation

Benefits & conditions

Rémunération proposée : selon profil

  • Télétravail : 2J/semaine
  • Avantages : mutuelle, titres restaurant / Swile selon site, environnement de travail moderne, politique de mobilité interne, cadre international, dispositifs de bien-être collaborateurs

About the company

Actual Talent, Talent Acquisition Partner du groupe Actual, 5e acteur sur le marché de l'emploi en France, accompagne son client Scaleway, entreprise spécialisée dans le cloud computing et les infrastructures numériques souveraines. Filiale du groupe Iliad, Scaleway est aujourd'hui l'un des acteurs majeurs du cloud européen. L'entreprise développe et exploite une large gamme de services d'infrastructure à destination d'entreprises privées et d'acteurs publics, dans une logique de performance, de sécurité et de souveraineté. Afin d'accompagner la montée en puissance de ses produits stratégiques, Scaleway renforce ses équipes en charge de la fiabilité, de l'automatisation et de l'excellence opérationnelle., A propos de l'entreprise Actual Talent, Talent Acquisition Partner du groupe Actual, 5e acteur sur le marché de l'emploi en France, accompagne son client Scaleway, entreprise spécialisée dans le cloud computing et les infrastructures numériques souveraines.Filiale du groupe Iliad, Scaleway est aujourd'hui l'un des acteurs majeurs du cloud européen. L'entreprise développe et exploite une large gamme de services d'infrastructure à destination d'entreprises privées et d'acteurs publics, dans une logique de performance, de sécurité et de souveraineté. Afin d'accompagner la montée en puissance de ses produits stratégiques, Scaleway renforce ses équipes en charge de la fiabilité, de l'automatisation et de l'excellence opérationnelle.

Apply for this position