Senior Site Reliability Engineer - AI Plattform

Jobriver Hr Service

Berlin, Germany

2 days ago

Role details

Contract type

Permanent contract

Employment type

Full-time (> 32 hours)

Working hours

Regular working hours

Languages

English, German

Experience level

Senior

Compensation

€ 69K

Job location

Berlin, Germany

Tech stack

Artificial Intelligence

Amazon Web Services (AWS)

Cloud Computing

Continuous Integration

Github

Python

Octopus Deploy

Prometheus

Datadog

Grafana

Cloudformation

Kubernetes

Machine Learning Operations

Terraform

Jenkins

Requirements

Um in dieser Position erfolgreich zu sein, sollten Sie über umfangreiche praktische Erfahrungen im Entwerfen, Implementieren und Warten von cloudbasierten Infrastrukturen, insbesondere in AWS, verfügen. Sie sollten über fundierte Erfahrungen mit Infrastructure as Code (Terraform, CloudFormation oder ähnliches) verfügen und mindestens eine Programmiersprache beherrschen, idealerweise Python. Kenntnisse über Netzwerk- und Sicherheitsbest Practices in Cloud-Umgebungen sind ebenfalls erforderlich. Praktische Erfahrungen mit CI/CD-Pipelines (GitHub Actions, ArgoCD, Jenkins oder ähnliches) sind von Vorteil. Vertrautheit mit Beobachtbarkeitstools (DataDog, Prometheus, Grafana, OpenTelemetry) ist wünschenswert. Es wäre von Vorteil, wenn Sie Erfahrung mit AI/ML-Produktionssystemen und den einzigartigen Herausforderungen der Skalierung von AI-Workloads haben. Kenntnisse in der Orchestrierung von AI/ML-Workloads sowie mit MLOps-Tools (z.B. AWS SageMaker, Bedrock, Kubeflow, MLflow) sind ebenfalls von Vorteil. Sie sollten über hervorragende Team- und Kommunikationsfähigkeiten verfügen, um effektiv über Teamgrenzen hinweg zu arbeiten und Ingenieure zu betreuen. Ein starkes Verantwortungsbewusstsein und eine proaktive Herangehensweise an Problemlösungen und Prozessverbesserungen sind ebenfalls wichtig. Eine Leidenschaft für den Aufbau qualitativ hochwertiger, skalierbarer und sicherer AI-Infrastrukturen sowie die Bereitschaft zu lernen und zur Weiterentwicklung von AI-Plattformen beizutragen, sind unerlässlich.

Technologien

Python AWS Terraform Jenkins GitHub Actions Prometheus Grafana

Soft Skills

Teamfähigkeit Kommunikation Analytisches Denken Eigenverantwortung

Erforderliche Sprachen

Deutsch Englisch

Benefits & conditions

Vor Ort Vollzeit Senior vor 43 Tagen 46.000 € - 69.000 € / Jahr

About the company

Wir suchen einen erfahrenen Senior Site Reliability Engineer, der unser Team im Bereich Plattform Engineering verstärkt. Die Mission des Plattform Engineering ist es, vertrauenswürdige, leistungsstarke und benutzerfreundliche Plattformen bereitzustellen, die Produktteams dabei unterstützen, eine Bank zu schaffen, die die Welt liebt. Unser AI Plattform Team trägt zu dieser Mission bei, indem es skalierbare, sichere und konforme Infrastruktur-Lösungen entwickelt, die MLOps- und GenAI-Funktionen unterstützen. Der ideale Kandidat ist nicht nur ein erfahrener SRE-Experte, der bereit ist, seine Fähigkeiten auf die Herausforderungen der KI-Infrastruktur anzuwenden, sondern auch ein begeisterter Lernender, der sich darauf freut, mit einem Team zu wachsen, das bahnbrechende Plattformlösungen entwickelt. In dieser Rolle werden Sie Plattformlösungen entwerfen, entwickeln und implementieren, die die Zuverlässigkeit, Sicherheit und Skalierbarkeit der AI Plattform-Infrastruktur verbessern. Sie werden technische Führungsqualitäten in den Bereichen Cloud-Infrastruktur, Netzwerk, CI/CD und Sicherheit für AI- und MLOps-Workloads bereitstellen. Die enge Zusammenarbeit mit Data Scientists, ML Engineers und Produktteams ist entscheidend, um eine nahtlose Modellbereitstellung und betriebliche Effizienz sicherzustellen. Darüber hinaus werden Sie Teammitglieder betreuen und coachen, um eine Kultur des Wissensaustauschs, der technischen Exzellenz und der kontinuierlichen Verbesserung zu fördern. Ihre aktive Rolle bei der Gestaltung der Strategie, Roadmap und Architektur des Teams wird ebenfalls von großer Bedeutung sein. Sie werden die Vorfallverwaltung und Fehlerbehebung vorantreiben, um eine stabile und vorhersehbare Entwicklungs- und Bereitstellungsumgebung für KI zu gewährleisten. Die Verbesserung der Beobachtbarkeit und Überwachung ist ebenfalls Teil Ihrer Aufgaben, um sicherzustellen, dass die AI Plattform die Leistungs- und Compliance-Anforderungen erfüllt.