Site Reliability Engineer (SRE) - AI GPU Clusters

Scaleway

Paris, France

7 days ago

Role details

Contract type

Permanent contract

Employment type

Full-time (> 32 hours)

Working hours

Regular working hours

Languages

French, English

Job location

Paris, France

Tech stack

Artificial Intelligence

Bash

Border Gateway Protocol

Ubuntu (Operating System)

Databases

Continuous Integration

Debian Linux

Linux

DNS

IPv6

Python

PostgreSQL

Ansible

Prometheus

TCP/IP

Data Logging

Scripting (Bash/Python/Go/Ruby)

Grafana

Gitlab

Job description

évoluer nos environnements de production. Votre mission sera de concevoir et maintenir une infrastructure IA fiable, observable et sécurisée pour garantir une disponibilité optimale des services destinés à nos clients dans le monde entier.

VOTRE FUTUR ÉQUIPE : Nous travaillons dans un environnement collaboratif et international, où la diversité des Scalers combinée à l'esprit de partage permettent de faire émerger de nouveaux projets chaque jour et d'avancer ensemble dans la concrétisation de nos ambitions. Vous rejoindrez une équipe nouvellement créée, dédiée à la construction et à l'exploitation de l'infrastructure IA de Scaleway. Au sein de ce groupe, vous serez impliqué dans la conception, la maintenance et la scalabilité des systèmes centraux et des outils d'observabilité, en partenariat avec les équipes produit, afin d'assurer la fiabilité et la performance des services IA de Scaleway.

VOTRE QUOTIDIEN :

Construire une infrastructure IA à grande échelle avec monitoring, diagnostic et remédiation des incidents de production
Résoudre les incidents de production à fort impact en collaboration avec les autres équipes d'ingénierie
Participer à un système d'astreinte pour gérer les incidents et garantir la continuité de service
Implémenter et maintenir des solutions d'observabilité pour surveiller l'état de santé de l'infrastructure IA et des applications
Contribuer à la gestion du cycle de vie de l'infrastructure IA à travers différents environnements et pays
Promouvoir et appliquer les bonnes pratiques en matière de stabilité, résilience, scalabilité et sécurité
Maintenir une documentation technique claire pour les outils et procédures
Contribuer à l'évolution des systèmes et outils sur la base des retours de production
Collaborer étroitement avec les équipes de développement pour assurer la préparation de l'infrastructure
Participer aux rituels d'équipe et aux initiatives de partage de connaissances

Requirements

SOFTSKILLS

Esprit proactif et orienté solutions
Passion pour l'automatisation et l'amélioration continue
Solides compétences de collaboration et de communication
Capacité à travailler en autonomie comme en équipe
Envie de partager vos connaissances et de mentorer vos pairs

HARDSKILLS

Expérience en Go, Python ou Rust
Solides compétences en scripting (Bash, Python)
Expérience pratique des systèmes Linux (Ubuntu/Debian)
Expérience sur des infrastructures GPU & HPC
Connaissances réseaux (TCP/IP, DNS, BGP, load-balancing, IPv6, etc.)
Familiarité avec les outils de monitoring et logging (Prometheus, Grafana, Elastic, etc.)
À l'aise avec l'Infrastructure-as-Code (Ansible, Salt, AWX, etc.)
Expérience en gestion de bases de données relationnelles (PostgreSQL)
Compréhension des pipelines CI/CD (GitLab)
Anglais opérationnel (écrit et parlé)

About the company

Site Reliability Engineer (SRE) - AI GPU Clusters, Rejoignez Scaleway et façonnez le cloud souverain de demain ! Depuis 1999, nous concevons des infrastructures sécurisées, durables et pensées pour accompagner les entreprises les plus ambitieuses. Historiquement reconnus pour nos serveurs dédiés Dedibox, nous avons pris en 2015 un virage stratégique vers le cloud computing. En restant fidèles à nos principes de simplicité, flexibilité et d'excellence technique, nous avons su trouver notre place parmi les leaders européens du secteur. Avec l'essor de l'intelligence artificielle, nous avons choisi de renforcer notre engagement en bénéficiant du soutien du groupe Iliad, qui investit aujourd'hui 3 milliards d'euros pour développer une alternative IA souveraine et sérieuse aux géants américains et asiatiques. Chaque jour et grâce à notre riche catalogue de produits et services (bare metal, conteneurisation, serverless, IA etc.), Scaleway sert fièrement 38 000 clients privés et du secteur public, de Photoroom à Mistral AI en passant par Golem.AI ou l'ADEME. Nos bureaux se trouvent à Paris, Lille, Rouen, Rennes, Toulouse, Bordeaux et Lyon. POURQUOI AVONS-NOUS BESOIN DE VOUS ? Notre croissance nous pousse à renforcer notre équipe SRE afin de soutenir et de faire