Site Reliability Engineer Schwerpunkt Observability & Security

MÜNCHENER VEREIN Krankenversicherung a.G.
2 days ago

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
German

Job location

Tech stack

Java
Bash
Computer Programming
Continuous Integration
DevOps
Python
Openshift
Red Hat Enterprise Linux - RHEL
Reliability Engineering
Ansible
Scripting (Bash/Python/Go/Ruby)
CheckMK
GIT
Gitlab-ci
Kubernetes
Software Version Control
Devsecops
Jenkins
Go

Job description

  • Observability, Systemtransparenz & SLA/SLO-Steuerung
  • End-to-End Monitoring: Du nutzt moderne Observability-Tools, um die Performance, Verfügbarkeit und den Zustand unserer Applikationen im Live-Betrieb transparent zu machen
  • Anomalieerkennung & Security Monitoring: Du nutzt unsere Tools, um unautorisierte Zugriffsversuche, Performance-Einbrüche oder Abweichungen im Plattform-Verhalten frühzeitig, automatisiert und proaktiv zu erkennen
  • Systemzusammenhänge verstehen: Du analysierst die komplexen Abhängigkeiten und Wechselwirkungen zwischen unseren containerisierten Anwendungen, identifizierst Engpässe und beschleunigst die Root Cause Analysis
  • Etablierung von SRE-Metriken: Du unterstützt das Team bei der Definition und Überwachung von SLIs und SLOs zur Sicherung unserer Systemqualität
  • SRE-driven Security & Automatisierung
  • Sichere Interkonnektivität & Secrets Management: Du sorgst für eine sichere und verschlüsselte Kommunikation zwischen unseren vernetzten Applikationen und automatisierst die sichere Bereitstellung von Zugangsdaten im laufenden Betrieb
  • Plattform-Sicherheit & Guardrails (Security as Code): Du definierst und automatisierst Sicherheitsleitplanken direkt auf Plattform-Ebene
  • Resilienz & Self-Healing: Du konzipierst und implementierst ausfallsichere Muster (z. B. Rate Limiting, Circuit Breaking) und begleitest den Entwurf von automatisierten Recovery-Prozessen
  • Beratung & Strategie
  • Schnittstellenfunktion (DevSecOps): Du berätst und unterstützt andere (IT-)Teams bei der ausfallsicheren Architektur, dem sicheren Deployment sowie der optimalen Überwachung neuer IT-Systeme

Requirements

  • Für uns zählen vor allem Deine Fähigkeiten, nicht Dein Ausbildungshintergrund - wir wissen, dass viele Wege in die IT führen
  • Kenntnisse der folgenden Technologien erleichtern Dir den Einstieg in unser Team. Wenn Du nicht alle mitbringst - kein Problem, wir unterstützen Dich dabei, den Rest zu lernen: - SRE- & Security-Fokus: Erfahrung im Bereich Site Reliability Engineering (SRE), DevOps oder in der Systemadministration mit starkem Fokus auf Automatisierung, Plattform-Sicherheit und Systemzuverlässigkeit - Observability-Expertise: Praktische Erfahrung mit Monitoring- und APM-Tools, idealerweise Elastic APM und CheckMK
  • Modernes Stack-Verständnis: Fundiertes Verständnis von Container-Orchestrierung (OpenShift/Kubernetes) sowie Java-basierten Laufzeitumgebungen (Quarkus, RedHat EAP)
  • Automatisierung & Infrastructure as Code: Sicherer Umgang mit Versionsverwaltung (Git), Automatisierungs-Tools (Ansible) sowie grundlegendes Verständnis von CI/CD-Pipelines (GitLab CI/CD, Jenkins)
  • Programming/Scripting: Gute Kenntnisse in mindestens einer Programmier- oder Skriptsprache (z. B. Python, Go, Java oder Bash) zur Automatisierung von sich wiederholenden Aufgaben (Toil)
  • Du hast den Anspruch an Dich, proaktiv Verantwortung für Themen zu übernehmen und eigene Ideen erfolgreich mit dem Team umzusetzen
  • Du bist ein Teamplayer, der Lust hat mit seiner Erfahrung und Analysestärke unser DevOps-Team zu bereichern
  • Nicht zuletzt: Neben Deutsch sprichst du auch fließend Meme und Gif

Apply for this position