Site Reliability Engineer (all genders)

envelio GmbH

Köln, Germany

6 days ago

Role details

Contract type

Permanent contract

Employment type

Full-time (> 32 hours)

Working hours

Regular working hours

Languages

English, German

Job location

Köln, Germany

Tech stack

Agile Methodologies

Artificial Intelligence

Azure

Cloud Computing

Continuous Delivery

Continuous Integration

Distributed Systems

Python

PostgreSQL

RabbitMQ

Redis

Ansible

Prometheus

TypeScript

Datadog

Saltstack

Grafana

Multi-Cloud

Gitlab

Cloudformation

Gitlab-ci

Kubernetes

Terraform

Docker

Job description

Wir sind ein bodenständiges Team aus Kaffee- und Mate-Liebhaber:innen. Unser Geek-Humor resultiert in einer rituellen Nutzung von Emojis und der enzyklopädischen Herausarbeitung von unnützem Wissen. Mehr als 150 envelianer:innen mit über 20 verschiedenen Nationalitäten sind bereits an Bord. Komm dazu und wachse mit uns!

Deine Rolle

Als Site Reliability Engineer (all genders) wirst du Teil eines hochspezialisierten Squads von ca. 6 Engineers, das für den zuverlässigen Betrieb und die Infrastruktur der Intelligent Grid Platform (IGP) verantwortlich ist. Die Plattform läuft auf über 100 Kundeninstanzen auf Kubernetes, verteilt über Azure, Open Telekom Cloud und On-Premise-Umgebungen.

Du entwirfst, baust und pflegst die Plattform-Grundlage: Cluster-Provisionierung, Deployment-Pipelines, Observability, Secrets-Management und Infrastructure-as-Code. Du arbeitest eng mit dem neuen Operations-Team zusammen, das den täglichen IGP-Betrieb für Kunden übernehmen wird, und stellst Tooling, Monitoring und Automatisierung bereit, die sie dafür brauchen.

Du arbeitest in einem Squad zusammen mit anderen SRElern und berichtest an den Engineering Manager., * Du betreibst und verbesserst Kubernetes-Cluster über mehrere Clouds und On-Premise-Umgebungen hinweg und stellst sicher, dass sie zuverlässig, sicher und kosteneffizient sind

Du entwickelst und pflegst Infrastructure-as-Code (Terraform, SaltStack) zur Verwaltung von über 100 Kundeninstanzen mit geschichteter Konfiguration
Du entwirfst und pflegst Observability (Monitoring, Alerting, SLOs), damit Produktionsprobleme frühzeitig erkannt und schnell behoben werden
Du verantwortest und entwickelst Secrets-Management, Zertifikatsautomatisierung und Security-Tooling über die gesamte Plattform
Du reduzierst operativen Aufwand durch Automatisierung, besseres Tooling und solide Runbooks
Du beteiligst dich an Incident Response, Root-Cause-Analyse und treibst Follow-ups voran, damit sich dieselben Probleme nicht wiederholen
Du arbeitest mit Entwicklungs-Squads und dem Operations-Team zusammen, um die Gesamtzuverlässigkeit der IGP zu verbessern, * Agile Arbeitsweise mit Kanban in cross-funktionalen Squads
Continuous Integration / Continuous Delivery
Arbeiten in kleinen Batches mit schnellen Reviews
Knowledge-Sharing-Sessions zwischen Entwickler:innen
"You Code it - You Own it" - Squad-Verantwortung für definierte Funktionsbereiche des Produkts
Blameless Post-Mortems und Kultur der kontinuierlichen Verbesserung, * Multi-Cloud, hybrides On-Prem-Setup mit Kubernetes und Helm als gemeinsamer Nenner
Applikation primär geschrieben in Python und TypeScript
Standard-Backing-Services wie PostgreSQL, RabbitMQ, Redis
Gitlab & Gitlab CI für das Management des Software Delivery Lifecycle
Terraform für Infrastructure as Code

Requirements

Perfektion ist ein Mythos! Uns interessiert der Mensch hinter dem Bildschirm - betrachte diese Kriterien als hilfreiche Orientierung. Wir freuen uns zu sehen, wie deine individuellen Stärken zu uns passen.

Du hast nachweisliche Erfahrung im Betrieb von Produktions-Workloads auf Kubernetes in einer Cloud- oder Hybrid-Umgebung
Du bist vertraut mit LinuxAdministration, Netzwerken und verteilten Systemen
Du hast praktische Erfahrung mit Infrastructure-as-CodeTools wie Terraform oder CloudFormation
Du hast mit Configuration-ManagementTools wie SaltStack, Ansible oder Chef gearbeitet
Du hast Erfahrung mit Container- und Orchestrierungs-Technologie (Docker, Kubernetes, Helm) im produktiven Einsatz
Du verstehst Monitoring und Observability und hast mit Tools wie Datadog, Prometheus oder Grafana gearbeitet
Du kommunizierst effektiv in asynchronen, Remote-first-Umgebungen
Du bist neugierig, lernst gerne und bist offen für den Einsatz von KI-Tools in deiner täglichen Arbeit
Du verfügst über verhandlungssichere Englischkenntnisse (Niveau C1)
Nice to have: Erfahrung mit einer Programmiersprache wie Python oder Go
Nice to have: Deutschkenntnisse

About the company

* Passe den Arbeitsmodus an deinen Lifestyle an - fully remote oder hybrid mit Office-Option in Köln * Option zum mobilen Arbeiten aus dem Ausland (bis zu drei Monate pro Jahr von überall in der EU oder den USA) * State of the Art Technologie und moderner Tech Stack * Sehr gute Hardware-Ausstattung (16 Zoll MacBooks, 2 Bildschirme an deinem Arbeitsplatz) * 30 Urlaubstage + 3 Corporate Holidays * Unterstützung deiner Gesundheit mit der Urban Sports Club Kooperation * Professionelle Unterstützung rund um mentales Wohlbefinden für dich und deine Familie durch unseren Partner nilo * Flexible Nutzung eines monatlichen Mobilitätsbudgets (z.B. Jobrad, ÖPNV) * Zeit und Budget für individuelles Wachstum * Regelmäßige Tech & Growth Talks für internen Wissensaustausch * Optionale betriebliche Altersvorsorge * Regelmäßige Firmen- und Teamevents

Role details

Job location

Tech stack

Job description

Requirements

About the company

Apply for this position

Good distractions

Moments

Videos View all