Site Reliability Engineer - Kubernetes Plattform
SysEleven GmbH
Berlin, Germany
2 days ago
Role details
Contract type
Permanent contract Employment type
Full-time (> 32 hours) Working hours
Regular working hours Languages
English, German Experience level
SeniorJob location
Berlin, Germany
Tech stack
Bash
Cloud Computing
Software Quality
Continuous Integration
Python
Ansible
Prometheus
GIT
Kubernetes
Terraform
Job description
- Entwerfen und Implementieren von Observability-Lösungen mit Prometheus, Loki und Mimir, einschließlich der Definition sinnvoller Alerts sowie der kontinuierlichen Verbesserung der Monitoring-Abdeckung
- Analyse, Troubleshooting und Weiterentwicklung eigener Kubernetes-Controller, um Zuverlässigkeit und Stabilität sicherzustellen
- Entwicklung und Wartung von Produktionsanwendungen mit Fokus auf Codequalität, Skalierbarkeit und operativer Einsatzfähigkeit
- Betrieb, Automatisierung und kontinuierliche
- Weiterentwicklung der MKA-Plattform mit Fokus auf Effizienz und Wartbarkeit Weiterentwicklung interner Tooling-Lösungen, um Automatisierung zu fördern und manuellen Aufwand zu reduzieren
Requirements
- Erfahrung im Betrieb von hochverfügbaren, geschäftskritischen Anwendungen in Cloud- und On-Premises-Umgebungen, inklusive Incident Leadership
- Sehr gute Kubernetes-Kenntnisse sowie Erfahrung im Cluster-Management
- Erfahrung mit GitOps-Prinzipien und ArgoCD für Deployment- und Delivery-Workflows
- Erfahrung mit Infrastructure as Code, insbesondere Terraform und Ansible
- Gute Kenntnisse in Bash und/oder Python für Automatisierung und Tooling
- Verständnis von CI/CD-Pipelines, idealerweise mit Tekton-basierten Workflows
- Sehr gute Deutschkenntnisse sowie gute Englischkenntnisse (B2+) für die technische Zusammenarbeit
Nice to have
- Erfahrung in der Go-Programmierung
- Erfahrung mit Nix für Development-Tooling und Automatisierung
- Erfahrung mit Helm, Make und Git
- Weitere Erfahrung mit Cloud-Native-Plattformen, Observability oder Plattform-Automatisierung