Werkstudent MLOps-Plattform & Cloud-Native Infrastruktur
Role details
Job location
Tech stack
Job description
Als Werkstudent:in unterstützen Sie unser Team dabei, die verschiedenen Software-, Infrastruktur- und ML Komponenten unserer Forschungs- und Entwicklungsplattform zu einem funktionierenden Gesamtsystem zu verbinden und weiterzuentwickeln. Die Plattform überwacht den Sicherheits- und Robustheitszustand von Machine-Learning-Systemen über ihren gesamten Lebenszyklus hinweg - als Cloud-Native-System auf Basis von Kubernetes, das wir aktuell auf eine OpenStack-basierte Cloud-Infrastruktur überführen. Dabei arbeiten wir nach modernen Entwicklungs- und Betriebsprinzipien (Git-zentriert, IaC, Containerisierung, CI/CD)., * Mitarbeit an unserer geschichteten IaC-Architektur mit OpenTofu/Terraform (modulare Layer für Cloud-Infrastruktur, Plattform-Dienste und Anwendungen)
- Bereitstellung und Pflege von Kubernetes-Umgebungen, perspektivisch auf einer OpenStack-basierten Cloud, inkl. Netzwerk-, Storage- und Zugriffs-Konfiguration
- Deployment von Komponenten über Helm, Kustomize und K8s-Manifeste
- Fehlersuche im Cluster (Pods, Services, Logs, Events) mit kubectl
Container & Image-Management
- Bau und Pflege von Docker-Images für unsere Services (Multi-Stage-Builds, Build-Automatisierung)
- Verwaltung von Images in unserer internen Container-Registry
MLOps-Plattform & Modell-Serving
- Betrieb und Integration der MLOps-Bausteine: Kubeflow Pipelines & Training Operator, MLflow (Experiment-Tracking & Model Registry), KServe (Modell-Serving), MinIO (S3-kompatibler Storage)
- Unterstützung beim Registrieren, Deployen und Versionieren von ML-Modellen sowie beim Aufsetzen von Trainings- und Serving-Pipelines
Event-Streaming & Service-Integration
- Anbindung und Pflege der Streaming-Schicht für Inferenz-Logging (Kafka-kompatibler Message Broker, CloudEvents)
- Implementierung und Konfiguration von Schnittstellen zwischen den Services (REST, GraphQL, Message-Queues, Modell-Inferenz-Protokolle)
ML- & Data-Science-Unterstützung (je nach Interesse und Vorkenntnissen)
- Mitarbeit an unseren ML-Services in Python, z. B. bei Modell-Monitoring, Drift-Erkennung und der Demo-Anwendung
- Unterstützung bei Auswertungen, Diagnose-Plots und Methodenvergleichen
Qualitätssicherung & Automatisierung
- Erstellen und Ausführen von Unit-, Integrations- und Smoke-/End-to-End-Tests
- Automatisierung wiederkehrender Deployment- und Build-Schritte; Mitwirken am Aufbau von CI/CD Pipelines
Dokumentation & Knowledge Transfer
- Pflege von Architektur-, Deployment- und Runbook-Dokumentation (Markdown)
- Aufbereitung von Demo-, Präsentations- und Reproduktionsmaterialien
Requirements
Must-Haves
- Eingeschriebene:r Student:in (Informatik, Data Science, Computational Engineering, Elektro-/Nachrichtentechnik oder vergleichbar)
- Solide Python-Kenntnisse und Freude am Lesen und Verstehen fremden Codes
- Grundverständnis von Containern (Docker) und Kubernetes
- Sicherer Umgang mit Git und der Kommandozeile (Linux)
- Selbstständige, lösungs- und prozessorientierte Arbeitsweise sowie Bereitschaft, sich zügig in neue Technologien einzuarbeiten
- Gute Deutsch- und Englischkenntnisse in Wort und Schrift
Nice-to-Have
- Erfahrung mit Infrastructure-as-Code (Terraform/OpenTofu)
- Erfahrung mit Cloud-Infrastruktur, idealerweise OpenStack
- Kenntnisse im MLOps-Umfeld (MLflow, Kubeflow, KServe, MinIO)
- Erfahrung mit Kafka bzw. event-getriebenen Architekturen
- Erfahrung mit ML-Frameworks (z. B. PyTorch) von Vorteil
- Interesse an ML-Sicherheit & -Robustheit (Angriffe auf Modelle, Modell-Monitoring)
- Erste Erfahrung mit agilen Methoden (Scrum, Kanban)
Benefits & conditions
-
Einsatzdauer: idealerweise 6-12 Monate
-
Arbeitszeit: 15-20 Stunden pro Woche (in der vorlesungsfreien Zeit nach Absprache mehr)
-
Hybrides Arbeitsmodell mit Remote-Möglichkeit, * Praxisnahe Mitarbeit an einem echten Forschungs- und Demonstrator-Projekt an der Schnittstelle von MLOps, Cloud-Native-Infrastruktur und ML-Sicherheit
-
Tiefe Einblicke in einen modernen, durchgängigen Technologie-Stack (OpenTofu, OpenStack, Kubernetes, Kubeflow, MLflow, KServe, Kafka)
-
Eigenverantwortliche Aufgaben mit direktem, sichtbarem Beitrag zum System
-
Enge Betreuung und Mentoring durch erfahrene Engineers - kurze Wege, direktes Feedback und Raum, Verantwortung zu übernehmen
-
Flexible, studienfreundliche Arbeitszeiten Perspektive auf eine längerfristige Zusammenarbeit nach Studienabschluss
About the company
AMS ist ein von Banken unabhängiges Leasing- und Beratungsunternehmen. Wir finanzieren Investitionsgüter aller Art und entwickeln Mobilitätskonzepte – von der Gehaltsumwandlung für Dienstwagen bzw. Diensträder bis zum Car-Sharing.