Site Reliability Engineer (expérimenté, CDI)

Groupe Alten

Canton de Valbonne, France

6 months ago

Role details

Contract type

Permanent contract

Employment type

Full-time (> 32 hours)

Working hours

Regular working hours

Languages

French

Experience level

Senior

Job location

Remote

Canton de Valbonne, France

Tech stack

Agile Methodologies

Amazon Web Services (AWS)

Systems Engineering

Azure

Bash

Cloud Computing

Databases

Continuous Integration

Linux

DevOps

Github

Python

NoSQL

Performance Tuning

Cloud Services

Ansible

Prometheus

SQL Databases

Datadog

Scripting (Bash/Python/Go/Ruby)

Google Cloud Platform

Grafana

Mttr

Reliability of Systems

Gitlab-ci

Kubernetes

Terraform

Docker

ELK

Jenkins

Microservices

Job description

En tant que Site Reliability Engineer (SRE), vous jouerez un rôle clé dans le maintien, l'optimisation et la sécurisation des infrastructures informatiques et des systèmes de production. Vous travaillerez en collaboration avec les équipes de développement, d'infrastructure et d'opérations pour garantir une disponibilité et une résilience maximales des services et applications critiques., * Maintien en conditions opérationnelles des systèmes et des applications en production, en optimisant leur disponibilité, performance et évolutivité.

Automatisation des tâches répétitives et des processus de déploiement, de surveillance et d'alerting.
Conception et mise en œuvre de solutions permettant d'améliorer la fiabilité des systèmes et de réduire le taux de pannes.
Analyse des incidents et gestion des urgences, avec pour objectif de diminuer le Mean Time To Recovery (MTTR) et d'accroître la résilience.
Optimisation des performances des applications et de l'infrastructure, notamment via la gestion des capacités et des coûts.
Collaboration avec les équipes de développement pour favoriser une approche DevOps et intégrer les pratiques SRE dès les phases de conception.
Création et suivi de métriques pour mesurer la fiabilité et les performances des systèmes (SLI, SLO, SLA).
Veille technologique pour assurer l'amélioration continue des outils et des processus SRE.

Requirements

Expérience en ingénierie système : Linux/Unix, gestion de serveurs, stockage, et réseaux.
Maîtrise des outils de monitoring et d'alerting (ex. : Prometheus, Grafana, Datadog, ELK Stack).
Compétences en automatisation : scripting (Python, Bash, etc.), outils de CI/CD (ex. : Jenkins, GitLab CI, GitHub Actions), et infrastructure-as-code (Terraform, Ansible).
Expérience avec les environnements cloud : AWS, GCP, Azure ou autres services cloud, ainsi que les architectures de microservices et conteneurs (Docker, Kubernetes).
Compétences en bases de données : administration et optimisation de bases SQL et NoSQL.
Capacité à gérer les incidents : compétences en diagnostic et résolution de pannes dans un environnement de production.
Bonnes compétences en communication pour collaborer avec des équipes pluridisciplinaires et documenter les processus et solutions.

Compétences bonus

Expérience en tant que DevOps ingénieur système ou développeur logiciel
Connaissance des méthodologies de développement agile et des pratiques DevOps
Participation à la mise en place de processus d'observabilité, de monitoring et de gestion des incidents
Expérience dans la gestion de la disponibilité et de la performance
Résistance au stress et capacité à travailler efficacement en cas d'incidents critiques.

Benefits & conditions

Type de contrat: CDI, temps plein.

PAS DE FULL REMOTE POSSIBLE.

Role details

Job location

Tech stack

Job description

Requirements

Benefits & conditions

Apply for this position

Good distractions

Moments

Videos View all