GPU Cluster Engineer - Large-Scale AI Training Infrastructure (Human)
Role details
Job location
Tech stack
Job description
- Du bist die zentrale Ansprechperson für NEURAs GPU-Cluster-Infrastruktur - ein großskaliges AWS-HyperPod-Setup mit topmodernen GPU-Instanzen für Foundation-Model-Training und kundenspezifische Fine-Tuning-Workloads.
- Du entwickelst das Betriebsframework, baust Self-Service-Tools für die ML-Teams und arbeitest direkt mit AWS zusammen, um die Plattform auf Hyperscaler-Ebene mitzugestalten.
- Dein Fokus liegt voll auf Cluster Engineering & Operations - nicht auf ML-Forschung selbst, sondern darauf, dass die Leute, die forschen, eine extrem stabile, effiziente und leicht zugängliche Infrastruktur haben.
- Aufsetzen, Konfigurieren und kontinuierliches Weiterentwickeln der HyperPod-Cluster von NEURA, inkl. HyperPod/Slurm und HyperPod/EKS-Orchestrierungsmodellen.
- Design und Umsetzung von Strategien für Cluster-Stabilität: Node-Failure-Detection, automatische Job-Recovery, Checkpoint-Koordination und fehlertolerante Multi-Node-Training-Workflows.
- Aufbau eines Workload-Priority-Frameworks, das mehreren Teams und Use Cases - Pretraining, Fine-Tuning, Kundenjobs - erlaubt, Clusterkapazität fair und effizient zu teilen.
- Optimierung der End-to-End-GPU-Auslastung: Erkennen und Lösen von Bottlenecks in Compute, GPU-Speicher, EFA-Netzwerk und Storage-Durchsatz.
- Enge Zusammenarbeit mit den AWS HyperPod-Produkt- und Engineering-Teams: Issues eskalieren, Learnings aus einer der größten Deployments teilen und Anforderungen für die Roadmap platzieren.
- Bereitstellung von Self-Service-Tools, damit ML-Researchers und Engineers Trainingsjobs eigenständig starten, monitoren und managen können - ohne ständige Infrastrukturunterstützung.
- Erstellung von Onboarding-Dokus, Trainingsmaterial und internen Workshops, damit User effizient arbeiten, Best Practices einhalten und Kosten ihrer Workloads verstehen.
- Infrastructure as Code ist für dich Standard. Jede Cluster-Konfiguration, jede Änderung, jede Umgebung ist Code-first.
- Verantwortung für Kosten- und Kapazitätsstrategie: Spot-Management, Reserved-Instance-Planung, Savings Plans und laufende AWS-Commitment-Verhandlungen.
Requirements
- 5+ Jahre Erfahrung im Infrastructure- oder Systems-Engineering, idealerweise mit Fokus auf GPU-Cluster oder HPC-Umgebungen.
- Tiefe praktische Erfahrung mit AWS HyperPod und AWS-Instanzen; direkte Erfahrung mit HyperPod ist ein starker Vorteil.
- Solides Verständnis von Slurm und Kubernetes als Orchestrierungsschichten - und die Fähigkeit, ihre Trade-offs für große GPU-Workloads zu bewerten.
- Praktisches Wissen über Distributed Training - du weißt, was Durchsatz beeinflusst und wie man Probleme debuggt.
- Erfahrung in der Entwicklung von Self-Service-Tools und technischer Dokumentation für anspruchsvolle Endnutzer: Du machst komplexe Infrastruktur zugänglich, nicht nur funktionsfähig.
- Starkes Verständnis für Cloud-Kostenmanagement im großen Maßstab: Spot-Interruptions, Kapazitätsreservierungen, Kostenverteilung über Teams und Workloads.
- Wohlfühlen in der Zusammenarbeit über Teamgrenzen hinweg - deine Hauptpartner sind ML-Forschende, aber auch Product, Finance und Cloud-Vendors.
- Sehr gute Englischkenntnisse; Deutsch ist ein Plus.
Benefits & conditions
Im Software Department gestaltest du Robotik-Lösungen, die die Zusammenarbeit von Mensch und Maschine neu definieren. Du arbeitest mit modernster Technologie und setzt Standards, die die Branche verändern. Dabei entwickelst du nicht nur unsere Lösungen mit, sondern setzt neue Trends und treibst Innovationen voran. In einem agilen und interdisziplinären Team arbeitest du an spannenden Projekten. Mit klaren Scrum-Prozessen wie Daily Stand-ups, Sprint-Planungen und Reviews bleibst du flexibel und effizient. Die enge Zusammenarbeit mit anderen Fachbereichen ermöglicht es dir, Softwarelösungen zu entwickeln, die nicht nur technisch, sondern auch praktisch überzeugen. Hier findest du eine Umgebung, in der Kreativität und technologische Exzellenz Hand in Hand gehen. Wenn du Ideen Realität werden lassen möchtest und Spaß daran hast, Technologien auf ein neues Level zu bringen, wartet im Software Development Team bei NEURA genau die richtige Herausforderung auf dich. Vollzeit