Site Reliability Engineer (SRE) - Systèmes Distribués

CLEVER CLOUD SAS
21 days ago

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
French

Job location

Remote

Tech stack

Java
Apache HTTP Server
Cloud Computing
Linux
Distributed Systems
Infrastructure as a Service (IaaS)
Java Virtual Machine (JVM)
Open Source Technology
Ansible
Scala
Data Streaming
Apache Zookeeper
Spark
Gitlab
Cassandra
Kafka
Terraform

Job description

C'est une équipe soudée où la collaboration est au cœur de notre façon de travailler.

Tu interviendras sur 3 domaines :

  • Materia : Notre projet phare de R&D ! On développe des couches de compatibilité (ETCD, Vault, Redis) au-dessus de FoundationDB. Un vrai défi technique avec un impact direct sur le produit. Tu accompagneras l'équipe sur les déploiements, la CI et la livraison de features opérationnelles (métriques, config...).
  • Télémétrie : Le système nerveux de Clever Cloud. Tu participeras à la gestion de flux de données massifs et au développement d'outils autour de FoundationDB et Warp10. Tu dirigeras aussi des sujets long terme : cycle de vie des données et architecture des métriques pour un IaaS.
  • Streaming : Nos clusters Apache Pulsar sont au cœur de l'orchestration. Tu contribueras à leur fiabilisation, à l'anticipation des dérives d'usage et à l'auto-remédiation. Tu pourras aussi participer à des contributions Open Source.

Notre ambition commune : construire une infrastructure capable de self-healing automatisé basée sur la télémétrie et les événements. Un objectif ambitieux qui rend chaque jour stimulant.

Nos journées sont rythmées et variées. Le matin, on fait le point sur l'état des clusters et on traite les demandes prioritaires - c'est l'occasion d'avoir un impact immédiat et concret. L'après-midi est généralement consacré à des travaux de fond : amélioration de nos outils de pilotage, automatisation, développement de nouvelles fonctionnalités.

On participe aussi régulièrement à des sessions de design d'architecture et des reviews de RFCs - des moments d'échange technique enrichissants. Et comme nos compétences sont transversales (monitoring, infra as code...), on est souvent sollicités pour aider d'autres équipes, ce qui permet de toucher à beaucoup de sujets différents.

Ce qu'on apprécie particulièrement : l'équilibre entre le réactif (résoudre des problèmes concrets) et le proactif (construire des systèmes plus robustes pour demain).

Sur le Poste de SRE Systèmes Distribués, tu travailleras sur des infrastructures à l'échelle:

Materia / FoundationDB

Monitorer, fiabiliser et automatiser nos clusters FoundationDB et les services stateless au-dessus (Materia ETCD, Materia KMS, MateriaKV). C'est le cœur de notre innovation produit.

Télémétrie

Notre plateforme de métriques est critique - elle alimente les dashboards clients, nos équipes, les systèmes automatisés et la facturation. Les chiffres donnent le vertige :

  • 160 millions de séries nominales
  • 30 To de données chaudes

Tu participeras à sa fiabilisation, à la gestion du cycle de vie des données et à l'automatisation.

Streaming (Apache Pulsar)

Nos clusters fonctionnent avec Apache Zookeeper et Apache Bookkeeper. Ils traitent :

  • 80 000 messages/seconde
  • 50 To en stockage chaud
  • 100 To en stockage froid

Tu contribueras à améliorer leur résilience, et tu auras l'opportunité de contribuer en Open Source sur des bugs identifiés.

Nous recherchons quelqu'un avec plusieurs années d'expérience dans le domaine, si ce n'est pas le cas, nous pouvons étudier le dossier au cas par cas.

Après une période d'intégration et de montée en compétences, tu rejoindras la rotation d'astreinte : 1 semaine sur 4, compensée.

Nous cherchons à intégrer la personne dès que possible. Les sujets sont nombreux et passionnants, et nous souhaitons prendre le temps de bien accompagner l'onboarding. Plus tôt la personne nous rejoindra, plus elle pourra monter en compétences sereinement et participer pleinement aux projets structurants de l'équipe.

L'environnement est techniquement riche et stimulant. Tu toucheras à des technologies de pointe sur des problématiques de scale réelles, Enfin, pourquoi rejoindre Clever Cloud ?

Peu d'entreprises offrent des défis techniques de cette envergure avec une vraie volonté d'investir dans l'approche logicielle. Chez Clever Cloud, on ne se contente pas de faire tourner des infras : on construit des outils, on innove, on contribue à l'Open Source.

Ce qui fait la différence

  • Liberté technique : on choisit les outils qui nous semblent les plus adaptés
  • Impact réel : nos travaux ont des répercussions directes sur le produit et les clients
  • Ambiance : une équipe bienveillante où l'entraide est naturelle
  • Croissance : l'entreprise grandit, les sujets aussi - c'est le bon moment pour nous rejoindre

Requirements

  • Autonomie : tu es maître de ton temps et de tes priorités
  • Impact : tes décisions ont des répercussions concrètes sur la plateforme
  • Exploration : tu as la liberté d'investiguer de nouveaux sujets pertinents pour l'évolution de l'entreprise
  • Variété : la diversité des domaines (Materia, Télémétrie, Streaming) garantit qu'on ne s'ennuie jamais

Concernant les compétences / qualités requises pour nous rejoindre :

  • Excellente communication : échanges techniques avec les équipes d'ingénierie et vulgarisation auprès du support, des clients et des directions
  • Capacité à collaborer avec des interlocuteurs variés et à rechercher activement l'information auprès d'autres équipes
  • Humilité, curiosité et volonté d'apprentissage continu
  • Esprit d'équipe

Compétences techniques et méthodologiques

  • Capacité d'analyse fonctionnelle pour comprendre des problématiques métier complexes et proposer des solutions fiables
  • Esprit d'investigation pour diagnostiquer et résoudre des problèmes complexes sur des systèmes distribués
  • Polyvalence : comprendre les enjeux de la production tout en étant capable de fiabiliser des plateformes et de participer aux réflexions sur l'avenir de la plateforme

Compétences techniques

  • Maîtrise d'un langage courant (Java, Rust, Go...) - Rust ou langages JVM sont un plus
  • Expérience avec au moins un système distribué (Kafka, Pulsar, Cassandra, FoundationDB, Spark...)
  • Expérience dans le tuning de systèmes Linux (kernel, réseau, stockage)
  • Capacité à investiguer en profondeur des problèmes de performance, de stockage ou de réseau
  • Familiarité avec les outils d'observabilité (métriques, logs, traces), * Flexibilité : full remote possible, ou mode hybride flexible si tu es proche d'un bureau (Paris, Nantes, Brest, Pau)
  • DevRel encouragé : possibilité de présenter à des conférences et de promouvoir Clever Cloud lors de salons
  • Communauté : participation au podcast MACI et à la vie de la communauté tech

About the company

À propos de Clever Cloud Clever Cloud est une plateforme française d'hébergement et d'automatisation Cloud (PaaS) créée en 2010. Notre mission : permettre aux développeurs de déployer leurs applications simplement, sans avoir à gérer l'infrastructure. Concrètement, nous développons et opérons une plateforme capable de lancer, superviser, réparer et faire évoluer automatiquement des applications en production. Mise à l'échelle, redémarrage, résilience, bases de données, sécurité ou métriques : tout est géré par la plateforme. Nous opérons notre propre infrastructure en Europe et nos clients vont de startups à des services publics en passant par des PME et des grands groupes. L'équipe ( 100 personnes) est majoritairement tech ; une grande partie de notre travail consiste à résoudre des problèmes d'exploitation par du logiciel plutôt que par des procédures humaines Nous défendons activement un numérique plus responsable : souveraineté technologique, sobriété énergétique et transparence technique. Dans un contexte de croissance, nous renforçons l'équipe et recrutons un Site Reliability Engineer spécialisé en systèmes distribués. Dans cette annonce, Alexandre, membre de l'équipe pour laquelle nous recrutons te fait découvrir l'équipe et le projet. Bonne lecture ! Je suis Site Reliability Engineer depuis 2 ans. Je suis responsable des systèmes distribués de Clever Cloud, avec le soutien ponctuel d'autres ingénieurs et de l'équipe infrastructure. Je travaille aux côtés de Alban (Développeur), Pierre (Lead Tech Systèmes Distribués) Enora (Développeuse), Baptiste (Développeur) sous la gestion de Geo.

Apply for this position