Senior Site Reliability Engineer - AI Plattform
Role details
Job location
Tech stack
Requirements
Um in dieser Position erfolgreich zu sein, sollten Sie über umfangreiche praktische Erfahrungen im Entwerfen, Implementieren und Warten von cloudbasierten Infrastrukturen, insbesondere in AWS, verfügen. Sie sollten über fundierte Erfahrungen mit Infrastructure as Code (Terraform, CloudFormation oder ähnliches) verfügen und mindestens eine Programmiersprache beherrschen, idealerweise Python. Kenntnisse über Netzwerk- und Sicherheitsbest Practices in Cloud-Umgebungen sind ebenfalls erforderlich. Praktische Erfahrungen mit CI/CD-Pipelines (GitHub Actions, ArgoCD, Jenkins oder ähnliches) sind von Vorteil. Vertrautheit mit Beobachtbarkeitstools (DataDog, Prometheus, Grafana, OpenTelemetry) ist wünschenswert. Es wäre von Vorteil, wenn Sie Erfahrung mit AI/ML-Produktionssystemen und den einzigartigen Herausforderungen der Skalierung von AI-Workloads haben. Kenntnisse in der Orchestrierung von AI/ML-Workloads sowie mit MLOps-Tools (z.B. AWS SageMaker, Bedrock, Kubeflow, MLflow) sind ebenfalls von Vorteil. Sie sollten über hervorragende Team- und Kommunikationsfähigkeiten verfügen, um effektiv über Teamgrenzen hinweg zu arbeiten und Ingenieure zu betreuen. Ein starkes Verantwortungsbewusstsein und eine proaktive Herangehensweise an Problemlösungen und Prozessverbesserungen sind ebenfalls wichtig. Eine Leidenschaft für den Aufbau qualitativ hochwertiger, skalierbarer und sicherer AI-Infrastrukturen sowie die Bereitschaft zu lernen und zur Weiterentwicklung von AI-Plattformen beizutragen, sind unerlässlich.
Technologien
Python AWS Terraform Jenkins GitHub Actions Prometheus Grafana
Soft Skills
Teamfähigkeit Kommunikation Analytisches Denken Eigenverantwortung
Erforderliche Sprachen
Deutsch Englisch
Benefits & conditions
Vor Ort Vollzeit Senior vor 43 Tagen 46.000 € - 69.000 € / Jahr