Senior HPC und KI Netzwerk Leistungsforschungs- und Analyseingenieur

Jobriver Hr Service
München, Germany
2 days ago

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
English, German
Experience level
Senior
Compensation
€ 62K

Job location

München, Germany

Tech stack

C
Artificial Intelligence
Bash
Profiling
Nvidia CUDA
Microprocessors
Python
Linux Distribution
Remote Direct Memory Access
TensorFlow
Software Engineering
Graphics Processing Unit (GPU)
PyTorch
Large Language Models
Deep Learning
Information Technology

Job description

  • Full-timeEmployment type: Full-time
  • €57,500 - €74,000 (XING estimate)
  • On-site, Das Unternehmen sucht einen talentierten Performance Research and Analysis Engineer, der Teil des Performance-Teams wird. In dieser Rolle sind Sie verantwortlich für die Profilierung und Analyse von KI-Workloads auf großen GPU- und CPU-Cluster-Systemen, die für das verteilte Training und die Inferenz von Deep Learning-Modellen verwendet werden. Ihr Fokus liegt auf Kommunikationsmustern, kollektiver Kommunikation, RDMA, Netzwerktechnologien und der Systemleistung. Sie werden mit verschiedenen Hardware-Plattformen wie HCAs, Switches, CPUs, GPUs und Systemen arbeiten sowie mit unterschiedlichen Software-Ebenen und -Funktionen interagieren. Ihre Aufgaben umfassen die Entwicklung von Leistungstools und -methoden zur tiefgehenden Analyse der Leistungserwartungen, -einschränkungen und -engpässe. Zudem werden Sie Erfahrungen und Forschungen zu KI-Workloads und Deep Learning-Modellen durchführen, die speziell für das großflächige Training von Deep Learning-Modellen auf Supercomputern ausgelegt sind, mit einem besonderen Schwerpunkt auf Hochleistungsnetzwerk-Technologien. Sie werden Benchmarking, Profilierung und Analyse der Leistung durchführen, um Engpässe zu identifizieren und Verbesserungs- sowie Optimierungsbereiche zu finden. Diese Position erfordert auch die Implementierung von Leistungsanalysetools und die Zusammenarbeit mit verschiedenen Teams von Hardware bis Software, um Einblicke in die Leistungsanalyse zu geben. Sie werden Leistungstestpläne definieren, Leistungserwartungen für neue Technologien und Lösungen festlegen und daran arbeiten, die Leistungsziele zu erreichen.

Requirements

Der ideale Kandidat hat einen Bachelor-Abschluss in Informatik oder Softwaretechnik und verfügt über mehr als 6 Jahre Erfahrung im Bereich Hochleistungsnetzwerke, insbesondere mit RDMA, MPI und NCCL. Sie sollten nachweisbare Fähigkeiten in der Leistungsanalyse und entsprechende Methoden mitbringen. Erfahrung mit NVIDIA GPUs, der CUDA-Bibliothek sowie Deep Learning-Frameworks wie TensorFlow oder PyTorch ist erforderlich. Darüber hinaus sollten Sie über Fachkenntnisse in kollektiven Kommunikationsbibliotheken (wie NCCL) und Protokollen (wie RoCE und RDMA) verfügen. Eine schnelle Auffassungsgabe sowie starke analytische und problemlösende Fähigkeiten sind ebenfalls wichtig. Programmierkenntnisse in Python, Bash und C sind erforderlich, ebenso wie Erfahrung mit Linux-Distributionen. Der ideale Kandidat ist ein Teamplayer mit guten Kommunikations- und zwischenmenschlichen Fähigkeiten. Besonders hervorzuheben sind Kenntnisse in der Benchmarking von KI-Workloads für das verteilte Training von LLMs sowie umfassende Systemkenntnisse (Intel / AMD / ARM CPUs, NVIDIA GPUs, HCA, Speicher, PCI) und Kenntnisse in Staukontrollalgorithmen.

Technologien

TensorFlow PyTorch

Soft Skills

Teamfähigkeit Kommunikation Analytisches Denken

Erforderliche Sprachen

Deutsch Englisch

Benefits & conditions

Vor Ort Vollzeit Senior vor 24 Tagen 44.000 € - 62.000 € / Jahr

Apply for this position