Site Reliability Engineer Schwerpunkt Observability & Security
MÜNCHENER VEREIN Krankenversicherung a.G.
2 days ago
Role details
Contract type
Permanent contract Employment type
Full-time (> 32 hours) Working hours
Regular working hours Languages
GermanJob location
Tech stack
Java
Bash
Computer Programming
Continuous Integration
DevOps
Python
Openshift
Red Hat Enterprise Linux - RHEL
Reliability Engineering
Ansible
Scripting (Bash/Python/Go/Ruby)
CheckMK
GIT
Gitlab-ci
Kubernetes
Software Version Control
Devsecops
Jenkins
Go
Job description
- Observability, Systemtransparenz & SLA/SLO-Steuerung
- End-to-End Monitoring: Du nutzt moderne Observability-Tools, um die Performance, Verfügbarkeit und den Zustand unserer Applikationen im Live-Betrieb transparent zu machen
- Anomalieerkennung & Security Monitoring: Du nutzt unsere Tools, um unautorisierte Zugriffsversuche, Performance-Einbrüche oder Abweichungen im Plattform-Verhalten frühzeitig, automatisiert und proaktiv zu erkennen
- Systemzusammenhänge verstehen: Du analysierst die komplexen Abhängigkeiten und Wechselwirkungen zwischen unseren containerisierten Anwendungen, identifizierst Engpässe und beschleunigst die Root Cause Analysis
- Etablierung von SRE-Metriken: Du unterstützt das Team bei der Definition und Überwachung von SLIs und SLOs zur Sicherung unserer Systemqualität
- SRE-driven Security & Automatisierung
- Sichere Interkonnektivität & Secrets Management: Du sorgst für eine sichere und verschlüsselte Kommunikation zwischen unseren vernetzten Applikationen und automatisierst die sichere Bereitstellung von Zugangsdaten im laufenden Betrieb
- Plattform-Sicherheit & Guardrails (Security as Code): Du definierst und automatisierst Sicherheitsleitplanken direkt auf Plattform-Ebene
- Resilienz & Self-Healing: Du konzipierst und implementierst ausfallsichere Muster (z. B. Rate Limiting, Circuit Breaking) und begleitest den Entwurf von automatisierten Recovery-Prozessen
- Beratung & Strategie
- Schnittstellenfunktion (DevSecOps): Du berätst und unterstützt andere (IT-)Teams bei der ausfallsicheren Architektur, dem sicheren Deployment sowie der optimalen Überwachung neuer IT-Systeme
Requirements
- Für uns zählen vor allem Deine Fähigkeiten, nicht Dein Ausbildungshintergrund - wir wissen, dass viele Wege in die IT führen
- Kenntnisse der folgenden Technologien erleichtern Dir den Einstieg in unser Team. Wenn Du nicht alle mitbringst - kein Problem, wir unterstützen Dich dabei, den Rest zu lernen: - SRE- & Security-Fokus: Erfahrung im Bereich Site Reliability Engineering (SRE), DevOps oder in der Systemadministration mit starkem Fokus auf Automatisierung, Plattform-Sicherheit und Systemzuverlässigkeit - Observability-Expertise: Praktische Erfahrung mit Monitoring- und APM-Tools, idealerweise Elastic APM und CheckMK
- Modernes Stack-Verständnis: Fundiertes Verständnis von Container-Orchestrierung (OpenShift/Kubernetes) sowie Java-basierten Laufzeitumgebungen (Quarkus, RedHat EAP)
- Automatisierung & Infrastructure as Code: Sicherer Umgang mit Versionsverwaltung (Git), Automatisierungs-Tools (Ansible) sowie grundlegendes Verständnis von CI/CD-Pipelines (GitLab CI/CD, Jenkins)
- Programming/Scripting: Gute Kenntnisse in mindestens einer Programmier- oder Skriptsprache (z. B. Python, Go, Java oder Bash) zur Automatisierung von sich wiederholenden Aufgaben (Toil)
- Du hast den Anspruch an Dich, proaktiv Verantwortung für Themen zu übernehmen und eigene Ideen erfolgreich mit dem Team umzusetzen
- Du bist ein Teamplayer, der Lust hat mit seiner Erfahrung und Analysestärke unser DevOps-Team zu bereichern
- Nicht zuletzt: Neben Deutsch sprichst du auch fließend Meme und Gif