GPU Cluster Engineer - Large-Scale AI Training Infrastructure (Human)

Neura Robotics GmbH
Metzingen, Germany
2 days ago

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
English, German
Experience level
Senior

Job location

Metzingen, Germany

Tech stack

Artificial Intelligence
Amazon Web Services (AWS)
Systems Engineering
Cloud Computing
Node.js
Kubernetes
Slurm

Job description

  • Du bist die zentrale Ansprechperson für NEURAs GPU-Cluster-Infrastruktur - ein großskaliges AWS-HyperPod-Setup mit topmodernen GPU-Instanzen für Foundation-Model-Training und kundenspezifische Fine-Tuning-Workloads.
  • Du entwickelst das Betriebsframework, baust Self-Service-Tools für die ML-Teams und arbeitest direkt mit AWS zusammen, um die Plattform auf Hyperscaler-Ebene mitzugestalten.
  • Dein Fokus liegt voll auf Cluster Engineering & Operations - nicht auf ML-Forschung selbst, sondern darauf, dass die Leute, die forschen, eine extrem stabile, effiziente und leicht zugängliche Infrastruktur haben.
  • Aufsetzen, Konfigurieren und kontinuierliches Weiterentwickeln der HyperPod-Cluster von NEURA, inkl. HyperPod/Slurm und HyperPod/EKS-Orchestrierungsmodellen.
  • Design und Umsetzung von Strategien für Cluster-Stabilität: Node-Failure-Detection, automatische Job-Recovery, Checkpoint-Koordination und fehlertolerante Multi-Node-Training-Workflows.
  • Aufbau eines Workload-Priority-Frameworks, das mehreren Teams und Use Cases - Pretraining, Fine-Tuning, Kundenjobs - erlaubt, Clusterkapazität fair und effizient zu teilen.
  • Optimierung der End-to-End-GPU-Auslastung: Erkennen und Lösen von Bottlenecks in Compute, GPU-Speicher, EFA-Netzwerk und Storage-Durchsatz.
  • Enge Zusammenarbeit mit den AWS HyperPod-Produkt- und Engineering-Teams: Issues eskalieren, Learnings aus einer der größten Deployments teilen und Anforderungen für die Roadmap platzieren.
  • Bereitstellung von Self-Service-Tools, damit ML-Researchers und Engineers Trainingsjobs eigenständig starten, monitoren und managen können - ohne ständige Infrastrukturunterstützung.
  • Erstellung von Onboarding-Dokus, Trainingsmaterial und internen Workshops, damit User effizient arbeiten, Best Practices einhalten und Kosten ihrer Workloads verstehen.
  • Infrastructure as Code ist für dich Standard. Jede Cluster-Konfiguration, jede Änderung, jede Umgebung ist Code-first.
  • Verantwortung für Kosten- und Kapazitätsstrategie: Spot-Management, Reserved-Instance-Planung, Savings Plans und laufende AWS-Commitment-Verhandlungen.

Requirements

  • 5+ Jahre Erfahrung im Infrastructure- oder Systems-Engineering, idealerweise mit Fokus auf GPU-Cluster oder HPC-Umgebungen.
  • Tiefe praktische Erfahrung mit AWS HyperPod und AWS-Instanzen; direkte Erfahrung mit HyperPod ist ein starker Vorteil.
  • Solides Verständnis von Slurm und Kubernetes als Orchestrierungsschichten - und die Fähigkeit, ihre Trade-offs für große GPU-Workloads zu bewerten.
  • Praktisches Wissen über Distributed Training - du weißt, was Durchsatz beeinflusst und wie man Probleme debuggt.
  • Erfahrung in der Entwicklung von Self-Service-Tools und technischer Dokumentation für anspruchsvolle Endnutzer: Du machst komplexe Infrastruktur zugänglich, nicht nur funktionsfähig.
  • Starkes Verständnis für Cloud-Kostenmanagement im großen Maßstab: Spot-Interruptions, Kapazitätsreservierungen, Kostenverteilung über Teams und Workloads.
  • Wohlfühlen in der Zusammenarbeit über Teamgrenzen hinweg - deine Hauptpartner sind ML-Forschende, aber auch Product, Finance und Cloud-Vendors.
  • Sehr gute Englischkenntnisse; Deutsch ist ein Plus.

Benefits & conditions

Im Software Department gestaltest du Robotik-Lösungen, die die Zusammenarbeit von Mensch und Maschine neu definieren. Du arbeitest mit modernster Technologie und setzt Standards, die die Branche verändern. Dabei entwickelst du nicht nur unsere Lösungen mit, sondern setzt neue Trends und treibst Innovationen voran. In einem agilen und interdisziplinären Team arbeitest du an spannenden Projekten. Mit klaren Scrum-Prozessen wie Daily Stand-ups, Sprint-Planungen und Reviews bleibst du flexibel und effizient. Die enge Zusammenarbeit mit anderen Fachbereichen ermöglicht es dir, Softwarelösungen zu entwickeln, die nicht nur technisch, sondern auch praktisch überzeugen. Hier findest du eine Umgebung, in der Kreativität und technologische Exzellenz Hand in Hand gehen. Wenn du Ideen Realität werden lassen möchtest und Spaß daran hast, Technologien auf ein neues Level zu bringen, wartet im Software Development Team bei NEURA genau die richtige Herausforderung auf dich. Vollzeit

About the company

Unsere Headquarters in Metzingen und in Riederich sind das Herz unseres Unternehmens. Hier befinden sich nicht nur unsere Büros, sondern auch die Produktion, die Academy, die Logistik und die Tech Labs - alles vereint, um Ideen Wirklichkeit werden zu lassen. Riederich selbst ist ein kleiner, ruhiger Ort, nur einen Kilometer entfernt von Metzingen, einer Stadt mit ganz eigenem Charakter. Metzingen ist weltweit als Outlet City bekannt und zieht Menschen aus aller Welt an. Hier kannst du exklusive Designerläden in einer entspannten, charmanten Umgebung genießen. Gleichzeitig bietet die Stadt Restaurants, Cafés und eine bodenständige schwäbische Gemütlichkeit - ideal, um nach der Arbeit zu entspannen.

Apply for this position