Site Reliability Engineer (SRE) - AI GPU Clusters

Scaleway
Paris, France
7 days ago

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
French, English

Job location

Paris, France

Tech stack

Artificial Intelligence
Bash
Border Gateway Protocol
Ubuntu (Operating System)
Databases
Continuous Integration
Debian Linux
Linux
DNS
IPv6
Python
PostgreSQL
Ansible
Prometheus
TCP/IP
Data Logging
Scripting (Bash/Python/Go/Ruby)
Grafana
Gitlab

Job description

évoluer nos environnements de production. Votre mission sera de concevoir et maintenir une infrastructure IA fiable, observable et sécurisée pour garantir une disponibilité optimale des services destinés à nos clients dans le monde entier.

VOTRE FUTUR ÉQUIPE : Nous travaillons dans un environnement collaboratif et international, où la diversité des Scalers combinée à l'esprit de partage permettent de faire émerger de nouveaux projets chaque jour et d'avancer ensemble dans la concrétisation de nos ambitions. Vous rejoindrez une équipe nouvellement créée, dédiée à la construction et à l'exploitation de l'infrastructure IA de Scaleway. Au sein de ce groupe, vous serez impliqué dans la conception, la maintenance et la scalabilité des systèmes centraux et des outils d'observabilité, en partenariat avec les équipes produit, afin d'assurer la fiabilité et la performance des services IA de Scaleway.

VOTRE QUOTIDIEN :

  • Construire une infrastructure IA à grande échelle avec monitoring, diagnostic et remédiation des incidents de production

  • Résoudre les incidents de production à fort impact en collaboration avec les autres équipes d'ingénierie

  • Participer à un système d'astreinte pour gérer les incidents et garantir la continuité de service

  • Implémenter et maintenir des solutions d'observabilité pour surveiller l'état de santé de l'infrastructure IA et des applications

  • Contribuer à la gestion du cycle de vie de l'infrastructure IA à travers différents environnements et pays

  • Promouvoir et appliquer les bonnes pratiques en matière de stabilité, résilience, scalabilité et sécurité

  • Maintenir une documentation technique claire pour les outils et procédures

  • Contribuer à l'évolution des systèmes et outils sur la base des retours de production

  • Collaborer étroitement avec les équipes de développement pour assurer la préparation de l'infrastructure

  • Participer aux rituels d'équipe et aux initiatives de partage de connaissances

Requirements

SOFTSKILLS

  • Esprit proactif et orienté solutions
  • Passion pour l'automatisation et l'amélioration continue
  • Solides compétences de collaboration et de communication
  • Capacité à travailler en autonomie comme en équipe
  • Envie de partager vos connaissances et de mentorer vos pairs

HARDSKILLS

  • Expérience en Go, Python ou Rust

  • Solides compétences en scripting (Bash, Python)

  • Expérience pratique des systèmes Linux (Ubuntu/Debian)

  • Expérience sur des infrastructures GPU & HPC

  • Connaissances réseaux (TCP/IP, DNS, BGP, load-balancing, IPv6, etc.)

  • Familiarité avec les outils de monitoring et logging (Prometheus, Grafana, Elastic, etc.)

  • À l'aise avec l'Infrastructure-as-Code (Ansible, Salt, AWX, etc.)

  • Expérience en gestion de bases de données relationnelles (PostgreSQL)

  • Compréhension des pipelines CI/CD (GitLab)

  • Anglais opérationnel (écrit et parlé)

About the company

Site Reliability Engineer (SRE) - AI GPU Clusters, Rejoignez Scaleway et façonnez le cloud souverain de demain ! Depuis 1999, nous concevons des infrastructures sécurisées, durables et pensées pour accompagner les entreprises les plus ambitieuses. Historiquement reconnus pour nos serveurs dédiés Dedibox, nous avons pris en 2015 un virage stratégique vers le cloud computing. En restant fidèles à nos principes de simplicité, flexibilité et d'excellence technique, nous avons su trouver notre place parmi les leaders européens du secteur. Avec l'essor de l'intelligence artificielle, nous avons choisi de renforcer notre engagement en bénéficiant du soutien du groupe Iliad, qui investit aujourd'hui 3 milliards d'euros pour développer une alternative IA souveraine et sérieuse aux géants américains et asiatiques. Chaque jour et grâce à notre riche catalogue de produits et services (bare metal, conteneurisation, serverless, IA etc.), Scaleway sert fièrement 38 000 clients privés et du secteur public, de Photoroom à Mistral AI en passant par Golem.AI ou l'ADEME. Nos bureaux se trouvent à Paris, Lille, Rouen, Rennes, Toulouse, Bordeaux et Lyon. POURQUOI AVONS-NOUS BESOIN DE VOUS ? Notre croissance nous pousse à renforcer notre équipe SRE afin de soutenir et de faire

Apply for this position