Senior Site Reliability Engineer - AI Plattform

Jobriver Hr Service
Berlin, Germany
2 days ago

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
English, German
Experience level
Senior
Compensation
€ 69K

Job location

Berlin, Germany

Tech stack

Artificial Intelligence
Amazon Web Services (AWS)
Cloud Computing
Continuous Integration
Github
Python
Octopus Deploy
Prometheus
Datadog
Grafana
Cloudformation
Kubernetes
Machine Learning Operations
Terraform
Jenkins

Requirements

Um in dieser Position erfolgreich zu sein, sollten Sie über umfangreiche praktische Erfahrungen im Entwerfen, Implementieren und Warten von cloudbasierten Infrastrukturen, insbesondere in AWS, verfügen. Sie sollten über fundierte Erfahrungen mit Infrastructure as Code (Terraform, CloudFormation oder ähnliches) verfügen und mindestens eine Programmiersprache beherrschen, idealerweise Python. Kenntnisse über Netzwerk- und Sicherheitsbest Practices in Cloud-Umgebungen sind ebenfalls erforderlich. Praktische Erfahrungen mit CI/CD-Pipelines (GitHub Actions, ArgoCD, Jenkins oder ähnliches) sind von Vorteil. Vertrautheit mit Beobachtbarkeitstools (DataDog, Prometheus, Grafana, OpenTelemetry) ist wünschenswert. Es wäre von Vorteil, wenn Sie Erfahrung mit AI/ML-Produktionssystemen und den einzigartigen Herausforderungen der Skalierung von AI-Workloads haben. Kenntnisse in der Orchestrierung von AI/ML-Workloads sowie mit MLOps-Tools (z.B. AWS SageMaker, Bedrock, Kubeflow, MLflow) sind ebenfalls von Vorteil. Sie sollten über hervorragende Team- und Kommunikationsfähigkeiten verfügen, um effektiv über Teamgrenzen hinweg zu arbeiten und Ingenieure zu betreuen. Ein starkes Verantwortungsbewusstsein und eine proaktive Herangehensweise an Problemlösungen und Prozessverbesserungen sind ebenfalls wichtig. Eine Leidenschaft für den Aufbau qualitativ hochwertiger, skalierbarer und sicherer AI-Infrastrukturen sowie die Bereitschaft zu lernen und zur Weiterentwicklung von AI-Plattformen beizutragen, sind unerlässlich.

Technologien

Python AWS Terraform Jenkins GitHub Actions Prometheus Grafana

Soft Skills

Teamfähigkeit Kommunikation Analytisches Denken Eigenverantwortung

Erforderliche Sprachen

Deutsch Englisch

Benefits & conditions

Vor Ort Vollzeit Senior vor 43 Tagen 46.000 € - 69.000 € / Jahr

About the company

Wir suchen einen erfahrenen Senior Site Reliability Engineer, der unser Team im Bereich Plattform Engineering verstärkt. Die Mission des Plattform Engineering ist es, vertrauenswürdige, leistungsstarke und benutzerfreundliche Plattformen bereitzustellen, die Produktteams dabei unterstützen, eine Bank zu schaffen, die die Welt liebt. Unser AI Plattform Team trägt zu dieser Mission bei, indem es skalierbare, sichere und konforme Infrastruktur-Lösungen entwickelt, die MLOps- und GenAI-Funktionen unterstützen. Der ideale Kandidat ist nicht nur ein erfahrener SRE-Experte, der bereit ist, seine Fähigkeiten auf die Herausforderungen der KI-Infrastruktur anzuwenden, sondern auch ein begeisterter Lernender, der sich darauf freut, mit einem Team zu wachsen, das bahnbrechende Plattformlösungen entwickelt. In dieser Rolle werden Sie Plattformlösungen entwerfen, entwickeln und implementieren, die die Zuverlässigkeit, Sicherheit und Skalierbarkeit der AI Plattform-Infrastruktur verbessern. Sie werden technische Führungsqualitäten in den Bereichen Cloud-Infrastruktur, Netzwerk, CI/CD und Sicherheit für AI- und MLOps-Workloads bereitstellen. Die enge Zusammenarbeit mit Data Scientists, ML Engineers und Produktteams ist entscheidend, um eine nahtlose Modellbereitstellung und betriebliche Effizienz sicherzustellen. Darüber hinaus werden Sie Teammitglieder betreuen und coachen, um eine Kultur des Wissensaustauschs, der technischen Exzellenz und der kontinuierlichen Verbesserung zu fördern. Ihre aktive Rolle bei der Gestaltung der Strategie, Roadmap und Architektur des Teams wird ebenfalls von großer Bedeutung sein. Sie werden die Vorfallverwaltung und Fehlerbehebung vorantreiben, um eine stabile und vorhersehbare Entwicklungs- und Bereitstellungsumgebung für KI zu gewährleisten. Die Verbesserung der Beobachtbarkeit und Überwachung ist ebenfalls Teil Ihrer Aufgaben, um sicherzustellen, dass die AI Plattform die Leistungs- und Compliance-Anforderungen erfüllt.

Apply for this position