ingénieur Cloud/DevOps orienté production pour assurer la stabilité

Groupe Ascalium
Canton of Nanterre-1, France
13 days ago

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
French, English
Experience level
Intermediate

Job location

Canton of Nanterre-1, France

Tech stack

Amazon Web Services (AWS)
Amazon Web Services (AWS)
Amazon Web Services (AWS)
Bash
Cloud Computing
Cloud Computing Security
Cloud Engineering
Configuration Management
Databases
Continuous Integration
Couchbase
Network Address Translation
DevOps
Elasticsearch
Identity and Access Management
IP Routing
Virtual Private Networks (VPN)
Python
PostgreSQL
Role-Based Access Control
Ansible
Prometheus
Mesos
Data Streaming
Datadog
Scripting (Bash/Python/Go/Ruby)
Google Cloud Platform
Load Balancing
Grafana
HybridCloud
Amazon Web Services (AWS)
Amazon Web Services (AWS)
Gitlab-ci
Kubernetes
Kafka
Terraform
Pagerduty

Job description

Le client recherche un ingénieur Cloud/DevOps orienté production pour assurer la stabilité, la fiabilité et la performance des systèmes en production sur un environnement cloud hybride AWS/GCP. Le rôle est à dominante RUN opérationnel avec une forte dimension automatisation et industrialisation (IaC, CI/CD, scripting).

La stack : AWS + GCP, Kafka, Elasticsearch, Couchbase, Mesos - environnement legacy en évolution vers du cloud. Le profil doit être à l'aise dans la complexité et l'hétérogénéité.

Trois enjeux concrets :

  • Garantir la disponibilité production au quotidien : monitoring proactif, gestion des incidents de bout en bout (détection, RCA, actions correctives), astreinte via PagerDuty
  • Automatiser et industrialiser les opérations : réduction de la dette manuelle via Terraform, Ansible, Python et Bash
  • Collaborer avec les équipes de développement pour améliorer la déployabilité et l'exploitabilité des applications

MISSIONS PRINCIPALES

Supervision & Disponibilité Production

  • Assurer le monitoring 24/7 des systèmes de production via Grafana, Prometheus, Datadog et Stackdriver - détection proactive des anomalies avant impact utilisateur
  • Créer et maintenir les dashboards et les alertes, corréler les événements pour le diagnostic d'incidents
  • Participer à l'astreinte on-call (PagerDuty) sur les systèmes critiques

Gestion des Incidents

  • Prendre en charge les incidents de production, mener le troubleshooting et produire les RCA (Root Cause Analysis)
  • Définir et mettre en oeuvre les actions correctives et préventives pour éviter la récurrence
  • Communiquer de façon claire avec les équipes et le management en situation de crise

Automatisation & Infrastructure as Code

  • Écrire et maintenir les configurations Terraform en production (modules, state management, workspaces)
  • Automatiser les opérations répétitives via Python et Bash - déploiements, inventaire, vérification, reporting
  • Gérer la configuration via Ansible et maintenir les pipelines GitLab CI

Exploitation des Environnements Conteneurisés & Plateformes

  • Opérer Kubernetes en production : déploiements, services, scaling HPA, troubleshooting pods/nodes, gestion des namespaces et RBAC
  • Opérer Kafka en production : monitoring du lag consumer, gestion des topics et partitions, diagnostic des incidents de streaming
  • Assurer le support opérationnel sur les bases de données : PostgreSQL, Elasticsearch, Couchbase (performances, sauvegardes, restaurations)

Réseau & Sécurité Cloud

  • Gérer les VPN, NAT, routage IP, proxy et load balancing en environnement cloud AWS et GCP
  • Appliquer les bonnes pratiques de sécurité et de gestion des accès (IAM, VPC)

Requirements

PROFIL RECHERCHÉ5 à 8 ans en ingénierie cloud/DevOps/ops, dont au moins 3 ans sur des environnements de production cloud (AWS ou GCP) avec KubernetesExpérience d'astreinte ou on-call sur des systèmes critiques : signal fort qui forme des réflexes de diagnostic et de gestion de crise que les profils purement "projet" n'ont pasExposition à Kafka en production : critère discriminantCapacité à opérer sur AWS ET GCP - le multi-cloud est explicite, un profil mono-provider devra démontrer une capacité de transfert rapideAnglais courant : documentation, runbooks, communication avec des équipes internationalesCOMPÉTENCES REQUISESCloud AWS + GCP (+++) : Exploitation opérationnelle des deux providers en production - EC2/GCE, S3/GCS, RDS, IAM, VPC, load balancers, App Engine - pratique réelle requise sur les deuxKubernetes (++) : Exploitation en production : déploiements, services, ingress, HPA, troubleshooting pods/nodes, gestion des namespaces et RBAC, monitoringTerraform (++) : Écriture et maintenance de configurations IaC en production - modules, state management, workspacesMonitoring (++) : Grafana + Prometheus + Datadog + Stackdriver : création de dashboards, définition d'alertes, corrélation d'événements pour le diagnostic d'incidentsScripting Python + Bash (++) : Automatisation opérationnelle, scripts de déploiement, outils d'inventaire et de vérification - niveau confirméKafka, Bases de données & Réseau : Kafka : monitoring du lag consumer, gestion des topics, diagnostic des incidents de streaming ; PostgreSQL, Elasticsearch, Couchbase : support opérationnel en production ; VPN, NAT, routage IP, proxy, load balancing en environnement cloudCI/CD & Configuration : GitLab CI : maintenance et amélioration de pipelines ; Ansible : configuration management et automatisation de déploiements, * 5 à 8 ans en ingénierie cloud/DevOps/ops, dont au moins 3 ans sur des environnements de production cloud (AWS ou GCP) avec Kubernetes

  • Expérience d'astreinte ou on-call sur des systèmes critiques : signal fort qui forme des réflexes de diagnostic et de gestion de crise que les profils purement "projet" n'ont pas
  • Exposition à Kafka en production : critère discriminant
  • Capacité à opérer sur AWS ET GCP - le multi-cloud est explicite, un profil mono-provider devra démontrer une capacité de transfert rapide
  • Anglais courant : documentation, runbooks, communication avec des équipes internationales, * Cloud AWS + GCP (+++) : Exploitation opérationnelle des deux providers en production - EC2/GCE, S3/GCS, RDS, IAM, VPC, load balancers, App Engine - pratique réelle requise sur les deux
  • Kubernetes (++) : Exploitation en production : déploiements, services, ingress, HPA, troubleshooting pods/nodes, gestion des namespaces et RBAC, monitoring
  • Terraform (++) : Écriture et maintenance de configurations IaC en production - modules, state management, workspaces
  • Monitoring (++) : Grafana + Prometheus + Datadog + Stackdriver : création de dashboards, définition d'alertes, corrélation d'événements pour le diagnostic d'incidents
  • Scripting Python + Bash (++) : Automatisation opérationnelle, scripts de déploiement, outils d'inventaire et de vérification - niveau confirmé
  • Kafka, Bases de données & Réseau : Kafka : monitoring du lag consumer, gestion des topics, diagnostic des incidents de streaming ; PostgreSQL, Elasticsearch, Couchbase : support opérationnel en production ; VPN, NAT, routage IP, proxy, load balancing en environnement cloud
  • CI/CD & Configuration : GitLab CI : maintenance et amélioration de pipelines ; Ansible, configuration management et automatisation de déploiements, Operations Cloud Expert, Ingénieur Cloud DevOps Run Aws · Gcp · Kubernetes · Terraform H/F

About the company

Créé en 2008, le Groupe Ascalium est un acteur global du recrutement spécialisé dans le placement de freelances (#WeAreFreelance) et le portage salarial (#WeArePortage). En 16 ans, plus de 5 000 consultants ont fait confiance au groupe et près de 100 clients ont été satisfaits. Ascalium accompagne également ses clients dans leur recherche de compétences en CDI., Créé en 2008, le Groupe Ascalium est un acteur global du recrutement spécialisé dans le placement de freelances (#WeAreFreelance) et le portage salarial (#WeArePortage).En 16 ans, plus de 5 000 consultants ont fait confiance au groupe et près de 100 clients ont été satisfaits. Ascalium accompagne également ses clients dans leur recherche de compétences en CDI.

Apply for this position