Site Reliability Engineer
Role details
Job location
Tech stack
Job description
Als Senior Site Reliability Engineer (m/w/d) bei Devoteam Innovative Tech bist Du der strategische Kopf für die Zuverlässigkeit und Skalierbarkeit unserer hochkomplexen Plattformen. Du bist kein reiner "Administrator", sondern ein Engineering-Experte, der komplexe Infrastrukturen als Software versteht. In dieser Senior-Rolle begleitest du den gesamten Lebenszyklus - von der Planungs- und Konzeptionsphase bis hin zur technischen Umsetzung und Optimierung. Du hinterfragst bestehende Setups kritisch, berätst unsere Kunden auf Augenhöhe und treibst die Stabilisierung unserer Komponenten aktiv voran. Dein Arbeitsalltag besteht aus folgenden Aufgaben: Platform Operations & Optimization: Du betreibst und optimierst unsere hochkomplexen Plattform-Stacks (Kubernetes, KubeVirt, Cilium, Ceph, Talos). Engineering & Automation: Du verantwortest die Automatisierung des Komponentenbetriebs mit Go und sorgst für eine lückenlose, professionelle Komponentendokumentation. SRE-Methodik (O11y): Du baust den Observability-Stack (Prometheus, Grafana, FluxCD) um und definierst präzise SLIs und SLOs. Advanced Monitoring: Du implementierst Messmethoden wie Synthetic Monitoring und Tracetests auf Basis von OpenTelemetry. Consulting & Design: Du begleitest intensiv die Planungs- und Konzeptionsphase und stellst sicher, dass Architektur-Entscheidungen SRE-Prinzipien folgen, bevor sie in die "Doing-Phase" übergehen. Leadership durch Expertise: Du nutzt Deine langjährige operative Erfahrung, um kritische Schwachstellen zu identifizieren und proaktiv Lösungen umzusetzen.
Requirements
Seniority & Erfahrung: Du verfügst über langjährige Erfahrung im SRE-Umfeld und hast in den letzten 3 Jahren aktiv in Umsetzungsprojekten gearbeitet (kein reines Management). Baseline Skills: Tiefgehende Kenntnisse in Go und Kubernetes sind für Dich Grundvoraussetzung. SRE-Mindset: Du beherrschst die Definition von SLIs (was wird gemessen) und SLOs (Schwellenwerte) und hast praktische Erfahrung mit OpenTelemetry. Infrastruktur-Experte: Du fühlst Dich sicher im Umgang mit KubeVirt, Cilium, Ceph und Talos. Charakterstärke: Du arbeitest absolut selbstständig, vertrittst eine eigene fundierte Meinung und hast die Fähigkeit, Anforderungen kritisch zu hinterfragen. Beratungskompetenz: Du besitzt ein hohes Maß an Beratungs- und Umsetzungsvermögen und kannst komplexe Konzepte souverän vermitteln.