Site Reliability Engineer (SRE) - Systèmes Distribués
Role details
Job location
Tech stack
Job description
C'est une équipe soudée où la collaboration est au cœur de notre façon de travailler.
Tu interviendras sur 3 domaines :
- Materia : Notre projet phare de R&D ! On développe des couches de compatibilité (ETCD, Vault, Redis) au-dessus de FoundationDB. Un vrai défi technique avec un impact direct sur le produit. Tu accompagneras l'équipe sur les déploiements, la CI et la livraison de features opérationnelles (métriques, config...).
- Télémétrie : Le système nerveux de Clever Cloud. Tu participeras à la gestion de flux de données massifs et au développement d'outils autour de FoundationDB et Warp10. Tu dirigeras aussi des sujets long terme : cycle de vie des données et architecture des métriques pour un IaaS.
- Streaming : Nos clusters Apache Pulsar sont au cœur de l'orchestration. Tu contribueras à leur fiabilisation, à l'anticipation des dérives d'usage et à l'auto-remédiation. Tu pourras aussi participer à des contributions Open Source.
Notre ambition commune : construire une infrastructure capable de self-healing automatisé basée sur la télémétrie et les événements. Un objectif ambitieux qui rend chaque jour stimulant.
Nos journées sont rythmées et variées. Le matin, on fait le point sur l'état des clusters et on traite les demandes prioritaires - c'est l'occasion d'avoir un impact immédiat et concret. L'après-midi est généralement consacré à des travaux de fond : amélioration de nos outils de pilotage, automatisation, développement de nouvelles fonctionnalités.
On participe aussi régulièrement à des sessions de design d'architecture et des reviews de RFCs - des moments d'échange technique enrichissants. Et comme nos compétences sont transversales (monitoring, infra as code...), on est souvent sollicités pour aider d'autres équipes, ce qui permet de toucher à beaucoup de sujets différents.
Ce qu'on apprécie particulièrement : l'équilibre entre le réactif (résoudre des problèmes concrets) et le proactif (construire des systèmes plus robustes pour demain).
Sur le Poste de SRE Systèmes Distribués, tu travailleras sur des infrastructures à l'échelle:
Materia / FoundationDB
Monitorer, fiabiliser et automatiser nos clusters FoundationDB et les services stateless au-dessus (Materia ETCD, Materia KMS, MateriaKV). C'est le cœur de notre innovation produit.
Télémétrie
Notre plateforme de métriques est critique - elle alimente les dashboards clients, nos équipes, les systèmes automatisés et la facturation. Les chiffres donnent le vertige :
- 160 millions de séries nominales
- 30 To de données chaudes
Tu participeras à sa fiabilisation, à la gestion du cycle de vie des données et à l'automatisation.
Streaming (Apache Pulsar)
Nos clusters fonctionnent avec Apache Zookeeper et Apache Bookkeeper. Ils traitent :
- 80 000 messages/seconde
- 50 To en stockage chaud
- 100 To en stockage froid
Tu contribueras à améliorer leur résilience, et tu auras l'opportunité de contribuer en Open Source sur des bugs identifiés.
Nous recherchons quelqu'un avec plusieurs années d'expérience dans le domaine, si ce n'est pas le cas, nous pouvons étudier le dossier au cas par cas.
Après une période d'intégration et de montée en compétences, tu rejoindras la rotation d'astreinte : 1 semaine sur 4, compensée.
Nous cherchons à intégrer la personne dès que possible. Les sujets sont nombreux et passionnants, et nous souhaitons prendre le temps de bien accompagner l'onboarding. Plus tôt la personne nous rejoindra, plus elle pourra monter en compétences sereinement et participer pleinement aux projets structurants de l'équipe.
L'environnement est techniquement riche et stimulant. Tu toucheras à des technologies de pointe sur des problématiques de scale réelles, Enfin, pourquoi rejoindre Clever Cloud ?
Peu d'entreprises offrent des défis techniques de cette envergure avec une vraie volonté d'investir dans l'approche logicielle. Chez Clever Cloud, on ne se contente pas de faire tourner des infras : on construit des outils, on innove, on contribue à l'Open Source.
Ce qui fait la différence
- Liberté technique : on choisit les outils qui nous semblent les plus adaptés
- Impact réel : nos travaux ont des répercussions directes sur le produit et les clients
- Ambiance : une équipe bienveillante où l'entraide est naturelle
- Croissance : l'entreprise grandit, les sujets aussi - c'est le bon moment pour nous rejoindre
Requirements
- Autonomie : tu es maître de ton temps et de tes priorités
- Impact : tes décisions ont des répercussions concrètes sur la plateforme
- Exploration : tu as la liberté d'investiguer de nouveaux sujets pertinents pour l'évolution de l'entreprise
- Variété : la diversité des domaines (Materia, Télémétrie, Streaming) garantit qu'on ne s'ennuie jamais
Concernant les compétences / qualités requises pour nous rejoindre :
- Excellente communication : échanges techniques avec les équipes d'ingénierie et vulgarisation auprès du support, des clients et des directions
- Capacité à collaborer avec des interlocuteurs variés et à rechercher activement l'information auprès d'autres équipes
- Humilité, curiosité et volonté d'apprentissage continu
- Esprit d'équipe
Compétences techniques et méthodologiques
- Capacité d'analyse fonctionnelle pour comprendre des problématiques métier complexes et proposer des solutions fiables
- Esprit d'investigation pour diagnostiquer et résoudre des problèmes complexes sur des systèmes distribués
- Polyvalence : comprendre les enjeux de la production tout en étant capable de fiabiliser des plateformes et de participer aux réflexions sur l'avenir de la plateforme
Compétences techniques
- Maîtrise d'un langage courant (Java, Rust, Go...) - Rust ou langages JVM sont un plus
- Expérience avec au moins un système distribué (Kafka, Pulsar, Cassandra, FoundationDB, Spark...)
- Expérience dans le tuning de systèmes Linux (kernel, réseau, stockage)
- Capacité à investiguer en profondeur des problèmes de performance, de stockage ou de réseau
- Familiarité avec les outils d'observabilité (métriques, logs, traces), * Flexibilité : full remote possible, ou mode hybride flexible si tu es proche d'un bureau (Paris, Nantes, Brest, Pau)
- DevRel encouragé : possibilité de présenter à des conférences et de promouvoir Clever Cloud lors de salons
- Communauté : participation au podcast MACI et à la vie de la communauté tech