AI Platform Engineer | Kubernetes, Azure, Terraform & GitOps - NEAR- / OFFSHORE
Role details
Job location
Tech stack
Job description
für nachfolgende Tätigkeit suchen wir 1 Bewerber mit folgenden Qualifikationen - vielleicht wären Sie dafür verfügbar oder können eine Empfehlung aussprechen:
Mit der Nutzung der männlichen Form des Wortes "Berater / Entwickler etc." sind alle Geschlechtsformen weiblich/männlich/divers gemeint
Mit dieser Anfrage suchen wir einen Senior AI Platform Engineer | Kubernetes, Azure, Terraform & GitOps
Es sind nur Near- oder Offshore Ressourcen zulässig.
Tätigkeit:
AI Platform Engineer (m/w/d) - Aufbau und Betrieb der AI Workstation
Die AI Workstation ist unsere interne Developer Plattform (IDP) zur Entwicklung und zum Betrieb von KI-Anwendungen und Datenprodukten. Ziel ist es, Data Scientists und ML Engineers in die Lage zu versetzen, Use Cases schneller, standardisierter und mit hoher Eigenständigkeit umzusetzen. [Threat mod...orkstation | Outlook]
Die Plattform folgt einem modularen Ansatz mit klaren Prinzipien wie GitOps, Infrastructure-as-Code, dezentralem Ownership und Self-Service. Sie stellt zentrale Bausteine bereit - von standardisierten Entwicklungsumgebungen über Kubernetes-basierte Laufzeitumgebungen bis hin zu integrierten GenAI-Services und MLOps-Komponenten. [Threat mod...orkstation | Outlook]
Ein wesentlicher Fokus liegt auf der kontinuierlichen Weiterentwicklung zu einer skalierbaren, hochautomatisierten Developer Platform, die zunehmend Self-Service-Funktionalitäten bereitstellt und sich um moderne AI-Services (z. B. MS Foundry, Databricks) erweitert.
Die Rolle adressiert insbesondere die Weiterentwicklung der Plattform im Bereich Cloud-Infrastruktur, Plattform-Automatisierung und Developer Experience.
Deine Aufgaben
Du leistest als Hands-on Platform Engineer an der Weiterentwicklung unserer AI Workstation und übernimmst Verantwortung für zentrale Infrastruktur- und Automatisierungsbausteine.
Du leistest in einem agilen Setup (Scrum / SAFe), in dem Anforderungen über ein priorisiertes Backlog gesteuert werden und setzt diese eigenständig technisch um.
Plattformbetrieb & Infrastruktur
Sicherstellung eines stabilen und skalierbaren Betriebs der Plattform (Azure, Kubernetes)
Betrieb, Wartung und Weiterentwicklung von Kubernetes-Clustern und Plattform-Services
Provisionierung und Verwaltung von Cloud-Ressourcen (Azure)
Infrastructure-as-Code & GitOps
Entwicklung und Pflege von IaC-Modulen (Terraform / OpenTofu)
Umsetzung und Weiterentwicklung von GitOps-Deployments (z. B. ArgoCD)
Aufbau klar strukturierter, wartbarer und automatisierbarer Infrastruktur
? Fokus: "Everything as Code" und reproduzierbare Setups
CI/CD & Developer Experience
Entwicklung und Betrieb von GitLab CI/CD-Pipelines
Aufbau und Pflege von Templates und Tooling zur Standardisierung
Enablement von Nutzern durch einfache, robuste Self-Service-Angebote
? Fokus: Reduktion von Komplexität für Plattform-Nutzer
Plattform-Weiterentwicklung
Integration neuer Services (z. B. Databricks, MS Foundry, AI Services)
Evaluierung neuer Technologien im Bereich Platform Engineering & AI
Aktive Mitgestaltung der Plattformarchitektur
Beratung
Beratung der Nutzer bei Plattform-Fragen und -Problemen
Analyse und Behebung von Incidents
Kontinuierliche Verbesserung der Plattform (Stabilität, Automatisierung, UX)
Optional: Teilnahme an einem On-Call-Modell (separat geregelt)
Zusammenarbeit im agilen Kontext
Arbeit in einem Scrum-/SAFe-Setup (Sprints, Backlog, Reviews)
Enge Zusammenarbeit mit Data Scientists, ML Engineers und anderen Plattform-Teams
Aktiver Beitrag zu Planung, Refinement und kontinuierlicher Verbesserung
Must-have Skills
Requirements
Sehr gute praktische Erfahrung im Betrieb und Troubleshooting von Kubernetes-Clustern in produktiven Umgebungen.
Tiefgehende Kenntnisse in Infrastructure-as-Code mit Terraform oder OpenTofu, inklusive Modularisierung und stabilem State-Handling.
Erfahrung im Design und Betrieb von CI/CD-Pipelines mit GitLab, inklusive Wiederverwendbarkeit und Standardisierung.
Fundierte Erfahrung mit Microsoft Azure, insbesondere im Bereich Ressourcenmanagement, Networking und Identity & Access Management.
Gute Kenntnisse im Bereich GitOps (z. B. ArgoCD) und deklarativer Deployments.
Sicherer Umgang mit Container-Technologien wie Docker sowie Linux-basierten Systemen.
Erfahrung in agilen Arbeitsweisen, insbesondere Scrum und/oder SAFe, sowie sicherer Umgang mit Backlogs, Sprints und iterativer Entwicklung.
Strong Plus:
Mehrjährige Erfahrung im Platform Engineering oder im Aufbau interner Developer-Plattformen (IDP).
Erfahrung im Design und Aufbau von Self-Service-Architekturen, z. B. über Templates, APIs oder Golden Paths.
Gute Kenntnisse in Python, insbesondere für Automatisierung und Tooling.
Erfahrung im Bereich Observability (Logging, Monitoring, Tracing) in verteilten Systemen.
Grundverständnis von Security- und Compliance-Anforderungen in Cloud-Umgebungen.
Nice-to-have:
Grundlegendes bis fortgeschrittenes Verständnis von ML- und MLOps-Prozessen.
Erfahrung mit Plattformen wie Databricks oder Microsoft Foundry.
Kenntnisse in Argo (z. B. Workflows) oder vergleichbaren Orchestrierungstools.
Erfahrung mit Template-Engines wie Copier oder ähnlichen Tools zur Verbesserung der Developer Experience.
Erfahrung im Umgang mit Open-Source-Technologien und deren Integration in Plattformlösungen.
Mindset:
Starker Fokus auf Hands-on-Umsetzung und eigenständige Problemlösung.
Ausgeprägtes Ownership für technische Lösungen und Ergebnisse.
Hoher Anspruch an Automatisierung, Standardisierung und einfache Nutzbarkeit.
Interesse an Plattformdenken und Developer Experience.
Teamorientierte Arbeitsweise und Freude an der Zusammenarbeit mit Engineers und Data Scientists.
Verhandlungssichere Englischkenntnisse (C1), gute Kommunikationsfähigkeit in internationalen Teams.
Erfahrung mit agilen Arbeitsweisen (Scrum und/oder SAFe).
Teamorientierte, proaktive und eigenverantwortliche Arbeitsweise.
Fähigkeit, komplexe technische Themen verständlich zu vermitteln.
Hohe Lernbereitschaft und Interesse an Plattform- und AI-Themen.