Werkstudent MLOps-Plattform & Cloud-Native Infrastruktur

AMS Gruppe
Berlin, Germany
yesterday

Role details

Contract type
Internship / Graduate position
Employment type
Part-time (≤ 32 hours)
Working hours
Regular working hours
Languages
English, German
Experience level
Junior

Job location

Frankfurt am Main, Germany

Tech stack

Agile Methodologies
Amazon Web Services (AWS)
Build Automation
Cloud Computing
Cloud Engineering
Continuous Integration
Linux
Image Management
Python
Message Broker
OpenStack
Scrum
Markdown
Runbook
Data Streaming
Data Logging
PyTorch
GIT
Containerization
Kubernetes
Information Technology
Kafka
GraphQL
Machine Learning Operations
Terraform
Docker

Job description

Als Werkstudent:in unterstützen Sie unser Team dabei, die verschiedenen Software-, Infrastruktur- und ML Komponenten unserer Forschungs- und Entwicklungsplattform zu einem funktionierenden Gesamtsystem zu verbinden und weiterzuentwickeln. Die Plattform überwacht den Sicherheits- und Robustheitszustand von Machine-Learning-Systemen über ihren gesamten Lebenszyklus hinweg - als Cloud-Native-System auf Basis von Kubernetes, das wir aktuell auf eine OpenStack-basierte Cloud-Infrastruktur überführen. Dabei arbeiten wir nach modernen Entwicklungs- und Betriebsprinzipien (Git-zentriert, IaC, Containerisierung, CI/CD)., * Mitarbeit an unserer geschichteten IaC-Architektur mit OpenTofu/Terraform (modulare Layer für Cloud-Infrastruktur, Plattform-Dienste und Anwendungen)

  • Bereitstellung und Pflege von Kubernetes-Umgebungen, perspektivisch auf einer OpenStack-basierten Cloud, inkl. Netzwerk-, Storage- und Zugriffs-Konfiguration
  • Deployment von Komponenten über Helm, Kustomize und K8s-Manifeste
  • Fehlersuche im Cluster (Pods, Services, Logs, Events) mit kubectl

Container & Image-Management

  • Bau und Pflege von Docker-Images für unsere Services (Multi-Stage-Builds, Build-Automatisierung)
  • Verwaltung von Images in unserer internen Container-Registry

MLOps-Plattform & Modell-Serving

  • Betrieb und Integration der MLOps-Bausteine: Kubeflow Pipelines & Training Operator, MLflow (Experiment-Tracking & Model Registry), KServe (Modell-Serving), MinIO (S3-kompatibler Storage)
  • Unterstützung beim Registrieren, Deployen und Versionieren von ML-Modellen sowie beim Aufsetzen von Trainings- und Serving-Pipelines

Event-Streaming & Service-Integration

  • Anbindung und Pflege der Streaming-Schicht für Inferenz-Logging (Kafka-kompatibler Message Broker, CloudEvents)
  • Implementierung und Konfiguration von Schnittstellen zwischen den Services (REST, GraphQL, Message-Queues, Modell-Inferenz-Protokolle)

ML- & Data-Science-Unterstützung (je nach Interesse und Vorkenntnissen)

  • Mitarbeit an unseren ML-Services in Python, z. B. bei Modell-Monitoring, Drift-Erkennung und der Demo-Anwendung
  • Unterstützung bei Auswertungen, Diagnose-Plots und Methodenvergleichen

Qualitätssicherung & Automatisierung

  • Erstellen und Ausführen von Unit-, Integrations- und Smoke-/End-to-End-Tests
  • Automatisierung wiederkehrender Deployment- und Build-Schritte; Mitwirken am Aufbau von CI/CD Pipelines

Dokumentation & Knowledge Transfer

  • Pflege von Architektur-, Deployment- und Runbook-Dokumentation (Markdown)
  • Aufbereitung von Demo-, Präsentations- und Reproduktionsmaterialien

Requirements

Must-Haves

  • Eingeschriebene:r Student:in (Informatik, Data Science, Computational Engineering, Elektro-/Nachrichtentechnik oder vergleichbar)
  • Solide Python-Kenntnisse und Freude am Lesen und Verstehen fremden Codes
  • Grundverständnis von Containern (Docker) und Kubernetes
  • Sicherer Umgang mit Git und der Kommandozeile (Linux)
  • Selbstständige, lösungs- und prozessorientierte Arbeitsweise sowie Bereitschaft, sich zügig in neue Technologien einzuarbeiten
  • Gute Deutsch- und Englischkenntnisse in Wort und Schrift

Nice-to-Have

  • Erfahrung mit Infrastructure-as-Code (Terraform/OpenTofu)
  • Erfahrung mit Cloud-Infrastruktur, idealerweise OpenStack
  • Kenntnisse im MLOps-Umfeld (MLflow, Kubeflow, KServe, MinIO)
  • Erfahrung mit Kafka bzw. event-getriebenen Architekturen
  • Erfahrung mit ML-Frameworks (z. B. PyTorch) von Vorteil
  • Interesse an ML-Sicherheit & -Robustheit (Angriffe auf Modelle, Modell-Monitoring)
  • Erste Erfahrung mit agilen Methoden (Scrum, Kanban)

Benefits & conditions

  • Einsatzdauer: idealerweise 6-12 Monate

  • Arbeitszeit: 15-20 Stunden pro Woche (in der vorlesungsfreien Zeit nach Absprache mehr)

  • Hybrides Arbeitsmodell mit Remote-Möglichkeit, * Praxisnahe Mitarbeit an einem echten Forschungs- und Demonstrator-Projekt an der Schnittstelle von MLOps, Cloud-Native-Infrastruktur und ML-Sicherheit

  • Tiefe Einblicke in einen modernen, durchgängigen Technologie-Stack (OpenTofu, OpenStack, Kubernetes, Kubeflow, MLflow, KServe, Kafka)

  • Eigenverantwortliche Aufgaben mit direktem, sichtbarem Beitrag zum System

  • Enge Betreuung und Mentoring durch erfahrene Engineers - kurze Wege, direktes Feedback und Raum, Verantwortung zu übernehmen

  • Flexible, studienfreundliche Arbeitszeiten Perspektive auf eine längerfristige Zusammenarbeit nach Studienabschluss

About the company

AMS ist ein von Banken unabhängiges Leasing- und Beratungsunternehmen. Wir finanzieren Investitionsgüter aller Art und entwickeln Mobilitätskonzepte – von der Gehaltsumwandlung für Dienstwagen bzw. Diensträder bis zum Car-Sharing.

Apply for this position