Senior HPC und KI Netzwerk Leistungsforschungs- und Analyseingenieur

Jobriver Hr Service

München, Germany

2 days ago

Role details

Contract type

Permanent contract

Employment type

Full-time (> 32 hours)

Working hours

Regular working hours

Languages

English, German

Experience level

Senior

Compensation

€ 62K

Job location

München, Germany

Tech stack

Artificial Intelligence

Bash

Profiling

Nvidia CUDA

Microprocessors

Python

Linux Distribution

Remote Direct Memory Access

TensorFlow

Software Engineering

Graphics Processing Unit (GPU)

PyTorch

Large Language Models

Deep Learning

Information Technology

Job description

Full-timeEmployment type: Full-time
€57,500 - €74,000 (XING estimate)
On-site, Das Unternehmen sucht einen talentierten Performance Research and Analysis Engineer, der Teil des Performance-Teams wird. In dieser Rolle sind Sie verantwortlich für die Profilierung und Analyse von KI-Workloads auf großen GPU- und CPU-Cluster-Systemen, die für das verteilte Training und die Inferenz von Deep Learning-Modellen verwendet werden. Ihr Fokus liegt auf Kommunikationsmustern, kollektiver Kommunikation, RDMA, Netzwerktechnologien und der Systemleistung. Sie werden mit verschiedenen Hardware-Plattformen wie HCAs, Switches, CPUs, GPUs und Systemen arbeiten sowie mit unterschiedlichen Software-Ebenen und -Funktionen interagieren. Ihre Aufgaben umfassen die Entwicklung von Leistungstools und -methoden zur tiefgehenden Analyse der Leistungserwartungen, -einschränkungen und -engpässe. Zudem werden Sie Erfahrungen und Forschungen zu KI-Workloads und Deep Learning-Modellen durchführen, die speziell für das großflächige Training von Deep Learning-Modellen auf Supercomputern ausgelegt sind, mit einem besonderen Schwerpunkt auf Hochleistungsnetzwerk-Technologien. Sie werden Benchmarking, Profilierung und Analyse der Leistung durchführen, um Engpässe zu identifizieren und Verbesserungs- sowie Optimierungsbereiche zu finden. Diese Position erfordert auch die Implementierung von Leistungsanalysetools und die Zusammenarbeit mit verschiedenen Teams von Hardware bis Software, um Einblicke in die Leistungsanalyse zu geben. Sie werden Leistungstestpläne definieren, Leistungserwartungen für neue Technologien und Lösungen festlegen und daran arbeiten, die Leistungsziele zu erreichen.

Requirements

Der ideale Kandidat hat einen Bachelor-Abschluss in Informatik oder Softwaretechnik und verfügt über mehr als 6 Jahre Erfahrung im Bereich Hochleistungsnetzwerke, insbesondere mit RDMA, MPI und NCCL. Sie sollten nachweisbare Fähigkeiten in der Leistungsanalyse und entsprechende Methoden mitbringen. Erfahrung mit NVIDIA GPUs, der CUDA-Bibliothek sowie Deep Learning-Frameworks wie TensorFlow oder PyTorch ist erforderlich. Darüber hinaus sollten Sie über Fachkenntnisse in kollektiven Kommunikationsbibliotheken (wie NCCL) und Protokollen (wie RoCE und RDMA) verfügen. Eine schnelle Auffassungsgabe sowie starke analytische und problemlösende Fähigkeiten sind ebenfalls wichtig. Programmierkenntnisse in Python, Bash und C sind erforderlich, ebenso wie Erfahrung mit Linux-Distributionen. Der ideale Kandidat ist ein Teamplayer mit guten Kommunikations- und zwischenmenschlichen Fähigkeiten. Besonders hervorzuheben sind Kenntnisse in der Benchmarking von KI-Workloads für das verteilte Training von LLMs sowie umfassende Systemkenntnisse (Intel / AMD / ARM CPUs, NVIDIA GPUs, HCA, Speicher, PCI) und Kenntnisse in Staukontrollalgorithmen.

Technologien

TensorFlow PyTorch

Soft Skills

Teamfähigkeit Kommunikation Analytisches Denken

Erforderliche Sprachen

Deutsch Englisch

Benefits & conditions

Vor Ort Vollzeit Senior vor 24 Tagen 44.000 € - 62.000 € / Jahr

Role details

Job location

Tech stack

Job description

Requirements

Benefits & conditions

Apply for this position

Good distractions

Moments

Videos View all