Back

Site Reliability Engineer - Kubernetes Plattform

SysEleven GmbH

Berlin, Germany

1 month ago

Role details

Contract type

Permanent contract

Employment type

Full-time (> 32 hours)

Working hours

Regular working hours

Languages

English, German

Experience level

Senior

Job location

Berlin, Germany

Tech stack

Bash

Cloud Computing

Software Quality

Continuous Integration

Python

Ansible

Prometheus

GIT

Kubernetes

Terraform

Job description

Entwerfen und Implementieren von Observability-Lösungen mit Prometheus, Loki und Mimir, einschließlich der Definition sinnvoller Alerts sowie der kontinuierlichen Verbesserung der Monitoring-Abdeckung
Analyse, Troubleshooting und Weiterentwicklung eigener Kubernetes-Controller, um Zuverlässigkeit und Stabilität sicherzustellen
Entwicklung und Wartung von Produktionsanwendungen mit Fokus auf Codequalität, Skalierbarkeit und operativer Einsatzfähigkeit
Betrieb, Automatisierung und kontinuierliche
Weiterentwicklung der MKA-Plattform mit Fokus auf Effizienz und Wartbarkeit Weiterentwicklung interner Tooling-Lösungen, um Automatisierung zu fördern und manuellen Aufwand zu reduzieren

Requirements

Erfahrung im Betrieb von hochverfügbaren, geschäftskritischen Anwendungen in Cloud- und On-Premises-Umgebungen, inklusive Incident Leadership
Sehr gute Kubernetes-Kenntnisse sowie Erfahrung im Cluster-Management
Erfahrung mit GitOps-Prinzipien und ArgoCD für Deployment- und Delivery-Workflows
Erfahrung mit Infrastructure as Code, insbesondere Terraform und Ansible
Gute Kenntnisse in Bash und/oder Python für Automatisierung und Tooling
Verständnis von CI/CD-Pipelines, idealerweise mit Tekton-basierten Workflows
Sehr gute Deutschkenntnisse sowie gute Englischkenntnisse (B2+) für die technische Zusammenarbeit

Nice to have

Erfahrung in der Go-Programmierung
Erfahrung mit Nix für Development-Tooling und Automatisierung
Erfahrung mit Helm, Make und Git
Weitere Erfahrung mit Cloud-Native-Plattformen, Observability oder Plattform-Automatisierung

Apply for this position