Site Reliability Engineer (SRE) - AI GPU Clusters
Role details
Job location
Tech stack
Job description
évoluer nos environnements de production. Votre mission sera de concevoir et maintenir une infrastructure IA fiable, observable et sécurisée pour garantir une disponibilité optimale des services destinés à nos clients dans le monde entier.
VOTRE FUTUR ÉQUIPE : Nous travaillons dans un environnement collaboratif et international, où la diversité des Scalers combinée à l'esprit de partage permettent de faire émerger de nouveaux projets chaque jour et d'avancer ensemble dans la concrétisation de nos ambitions. Vous rejoindrez une équipe nouvellement créée, dédiée à la construction et à l'exploitation de l'infrastructure IA de Scaleway. Au sein de ce groupe, vous serez impliqué dans la conception, la maintenance et la scalabilité des systèmes centraux et des outils d'observabilité, en partenariat avec les équipes produit, afin d'assurer la fiabilité et la performance des services IA de Scaleway.
VOTRE QUOTIDIEN :
-
Construire une infrastructure IA à grande échelle avec monitoring, diagnostic et remédiation des incidents de production
-
Résoudre les incidents de production à fort impact en collaboration avec les autres équipes d'ingénierie
-
Participer à un système d'astreinte pour gérer les incidents et garantir la continuité de service
-
Implémenter et maintenir des solutions d'observabilité pour surveiller l'état de santé de l'infrastructure IA et des applications
-
Contribuer à la gestion du cycle de vie de l'infrastructure IA à travers différents environnements et pays
-
Promouvoir et appliquer les bonnes pratiques en matière de stabilité, résilience, scalabilité et sécurité
-
Maintenir une documentation technique claire pour les outils et procédures
-
Contribuer à l'évolution des systèmes et outils sur la base des retours de production
-
Collaborer étroitement avec les équipes de développement pour assurer la préparation de l'infrastructure
-
Participer aux rituels d'équipe et aux initiatives de partage de connaissances
Requirements
SOFTSKILLS
- Esprit proactif et orienté solutions
- Passion pour l'automatisation et l'amélioration continue
- Solides compétences de collaboration et de communication
- Capacité à travailler en autonomie comme en équipe
- Envie de partager vos connaissances et de mentorer vos pairs
HARDSKILLS
-
Expérience en Go, Python ou Rust
-
Solides compétences en scripting (Bash, Python)
-
Expérience pratique des systèmes Linux (Ubuntu/Debian)
-
Expérience sur des infrastructures GPU & HPC
-
Connaissances réseaux (TCP/IP, DNS, BGP, load-balancing, IPv6, etc.)
-
Familiarité avec les outils de monitoring et logging (Prometheus, Grafana, Elastic, etc.)
-
À l'aise avec l'Infrastructure-as-Code (Ansible, Salt, AWX, etc.)
-
Expérience en gestion de bases de données relationnelles (PostgreSQL)
-
Compréhension des pipelines CI/CD (GitLab)
-
Anglais opérationnel (écrit et parlé)