Werkstudent MLOps-Plattform & Cloud-Native Infrastruktur

AMS Gruppe

Berlin, Germany

yesterday

Role details

Contract type

Internship / Graduate position

Employment type

Part-time (≤ 32 hours)

Working hours

Regular working hours

Languages

English, German

Experience level

Junior

Job location

Frankfurt am Main, Germany

Tech stack

Agile Methodologies

Amazon Web Services (AWS)

Build Automation

Cloud Computing

Cloud Engineering

Continuous Integration

Linux

Image Management

Python

Message Broker

OpenStack

Scrum

Markdown

Runbook

Data Streaming

Data Logging

PyTorch

GIT

Containerization

Kubernetes

Information Technology

Kafka

GraphQL

Machine Learning Operations

Terraform

Docker

Job description

Als Werkstudent:in unterstützen Sie unser Team dabei, die verschiedenen Software-, Infrastruktur- und ML Komponenten unserer Forschungs- und Entwicklungsplattform zu einem funktionierenden Gesamtsystem zu verbinden und weiterzuentwickeln. Die Plattform überwacht den Sicherheits- und Robustheitszustand von Machine-Learning-Systemen über ihren gesamten Lebenszyklus hinweg - als Cloud-Native-System auf Basis von Kubernetes, das wir aktuell auf eine OpenStack-basierte Cloud-Infrastruktur überführen. Dabei arbeiten wir nach modernen Entwicklungs- und Betriebsprinzipien (Git-zentriert, IaC, Containerisierung, CI/CD)., * Mitarbeit an unserer geschichteten IaC-Architektur mit OpenTofu/Terraform (modulare Layer für Cloud-Infrastruktur, Plattform-Dienste und Anwendungen)

Bereitstellung und Pflege von Kubernetes-Umgebungen, perspektivisch auf einer OpenStack-basierten Cloud, inkl. Netzwerk-, Storage- und Zugriffs-Konfiguration
Deployment von Komponenten über Helm, Kustomize und K8s-Manifeste
Fehlersuche im Cluster (Pods, Services, Logs, Events) mit kubectl

Container & Image-Management

Bau und Pflege von Docker-Images für unsere Services (Multi-Stage-Builds, Build-Automatisierung)
Verwaltung von Images in unserer internen Container-Registry

MLOps-Plattform & Modell-Serving

Betrieb und Integration der MLOps-Bausteine: Kubeflow Pipelines & Training Operator, MLflow (Experiment-Tracking & Model Registry), KServe (Modell-Serving), MinIO (S3-kompatibler Storage)
Unterstützung beim Registrieren, Deployen und Versionieren von ML-Modellen sowie beim Aufsetzen von Trainings- und Serving-Pipelines

Event-Streaming & Service-Integration

Anbindung und Pflege der Streaming-Schicht für Inferenz-Logging (Kafka-kompatibler Message Broker, CloudEvents)
Implementierung und Konfiguration von Schnittstellen zwischen den Services (REST, GraphQL, Message-Queues, Modell-Inferenz-Protokolle)

ML- & Data-Science-Unterstützung (je nach Interesse und Vorkenntnissen)

Mitarbeit an unseren ML-Services in Python, z. B. bei Modell-Monitoring, Drift-Erkennung und der Demo-Anwendung
Unterstützung bei Auswertungen, Diagnose-Plots und Methodenvergleichen

Qualitätssicherung & Automatisierung

Erstellen und Ausführen von Unit-, Integrations- und Smoke-/End-to-End-Tests
Automatisierung wiederkehrender Deployment- und Build-Schritte; Mitwirken am Aufbau von CI/CD Pipelines

Dokumentation & Knowledge Transfer

Pflege von Architektur-, Deployment- und Runbook-Dokumentation (Markdown)
Aufbereitung von Demo-, Präsentations- und Reproduktionsmaterialien

Requirements

Must-Haves

Eingeschriebene:r Student:in (Informatik, Data Science, Computational Engineering, Elektro-/Nachrichtentechnik oder vergleichbar)
Solide Python-Kenntnisse und Freude am Lesen und Verstehen fremden Codes
Grundverständnis von Containern (Docker) und Kubernetes
Sicherer Umgang mit Git und der Kommandozeile (Linux)
Selbstständige, lösungs- und prozessorientierte Arbeitsweise sowie Bereitschaft, sich zügig in neue Technologien einzuarbeiten
Gute Deutsch- und Englischkenntnisse in Wort und Schrift

Nice-to-Have

Erfahrung mit Infrastructure-as-Code (Terraform/OpenTofu)
Erfahrung mit Cloud-Infrastruktur, idealerweise OpenStack
Kenntnisse im MLOps-Umfeld (MLflow, Kubeflow, KServe, MinIO)
Erfahrung mit Kafka bzw. event-getriebenen Architekturen
Erfahrung mit ML-Frameworks (z. B. PyTorch) von Vorteil
Interesse an ML-Sicherheit & -Robustheit (Angriffe auf Modelle, Modell-Monitoring)
Erste Erfahrung mit agilen Methoden (Scrum, Kanban)

Benefits & conditions

Einsatzdauer: idealerweise 6-12 Monate
Arbeitszeit: 15-20 Stunden pro Woche (in der vorlesungsfreien Zeit nach Absprache mehr)
Hybrides Arbeitsmodell mit Remote-Möglichkeit, * Praxisnahe Mitarbeit an einem echten Forschungs- und Demonstrator-Projekt an der Schnittstelle von MLOps, Cloud-Native-Infrastruktur und ML-Sicherheit
Tiefe Einblicke in einen modernen, durchgängigen Technologie-Stack (OpenTofu, OpenStack, Kubernetes, Kubeflow, MLflow, KServe, Kafka)
Eigenverantwortliche Aufgaben mit direktem, sichtbarem Beitrag zum System
Enge Betreuung und Mentoring durch erfahrene Engineers - kurze Wege, direktes Feedback und Raum, Verantwortung zu übernehmen
Flexible, studienfreundliche Arbeitszeiten Perspektive auf eine längerfristige Zusammenarbeit nach Studienabschluss

About the company

AMS ist ein von Banken unabhängiges Leasing- und Beratungsunternehmen. Wir finanzieren Investitionsgüter aller Art und entwickeln Mobilitätskonzepte – von der Gehaltsumwandlung für Dienstwagen bzw. Diensträder bis zum Car-Sharing.

Role details

Job location

Tech stack

Job description

Requirements

Benefits & conditions

About the company

Apply for this position

Good distractions

Moments

Videos View all