Site Reliability Engineer (all genders)

envelio GmbH
Köln, Germany
6 days ago

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
English, German

Job location

Köln, Germany

Tech stack

Agile Methodologies
Artificial Intelligence
Azure
Cloud Computing
Continuous Delivery
Continuous Integration
Distributed Systems
Python
PostgreSQL
RabbitMQ
Redis
Ansible
Prometheus
TypeScript
Datadog
Saltstack
Grafana
Multi-Cloud
Gitlab
Cloudformation
Gitlab-ci
Kubernetes
Terraform
Docker

Job description

Wir sind ein bodenständiges Team aus Kaffee- und Mate-Liebhaber:innen. Unser Geek-Humor resultiert in einer rituellen Nutzung von Emojis und der enzyklopädischen Herausarbeitung von unnützem Wissen. Mehr als 150 envelianer:innen mit über 20 verschiedenen Nationalitäten sind bereits an Bord. Komm dazu und wachse mit uns!

Deine Rolle

Als Site Reliability Engineer (all genders) wirst du Teil eines hochspezialisierten Squads von ca. 6 Engineers, das für den zuverlässigen Betrieb und die Infrastruktur der Intelligent Grid Platform (IGP) verantwortlich ist. Die Plattform läuft auf über 100 Kundeninstanzen auf Kubernetes, verteilt über Azure, Open Telekom Cloud und On-Premise-Umgebungen.

Du entwirfst, baust und pflegst die Plattform-Grundlage: Cluster-Provisionierung, Deployment-Pipelines, Observability, Secrets-Management und Infrastructure-as-Code. Du arbeitest eng mit dem neuen Operations-Team zusammen, das den täglichen IGP-Betrieb für Kunden übernehmen wird, und stellst Tooling, Monitoring und Automatisierung bereit, die sie dafür brauchen.

Du arbeitest in einem Squad zusammen mit anderen SRElern und berichtest an den Engineering Manager., * Du betreibst und verbesserst Kubernetes-Cluster über mehrere Clouds und On-Premise-Umgebungen hinweg und stellst sicher, dass sie zuverlässig, sicher und kosteneffizient sind

  • Du entwickelst und pflegst Infrastructure-as-Code (Terraform, SaltStack) zur Verwaltung von über 100 Kundeninstanzen mit geschichteter Konfiguration
  • Du entwirfst und pflegst Observability (Monitoring, Alerting, SLOs), damit Produktionsprobleme frühzeitig erkannt und schnell behoben werden
  • Du verantwortest und entwickelst Secrets-Management, Zertifikatsautomatisierung und Security-Tooling über die gesamte Plattform
  • Du reduzierst operativen Aufwand durch Automatisierung, besseres Tooling und solide Runbooks
  • Du beteiligst dich an Incident Response, Root-Cause-Analyse und treibst Follow-ups voran, damit sich dieselben Probleme nicht wiederholen
  • Du arbeitest mit Entwicklungs-Squads und dem Operations-Team zusammen, um die Gesamtzuverlässigkeit der IGP zu verbessern, * Agile Arbeitsweise mit Kanban in cross-funktionalen Squads
  • Continuous Integration / Continuous Delivery
  • Arbeiten in kleinen Batches mit schnellen Reviews
  • Knowledge-Sharing-Sessions zwischen Entwickler:innen
  • "You Code it - You Own it" - Squad-Verantwortung für definierte Funktionsbereiche des Produkts
  • Blameless Post-Mortems und Kultur der kontinuierlichen Verbesserung, * Multi-Cloud, hybrides On-Prem-Setup mit Kubernetes und Helm als gemeinsamer Nenner
  • Applikation primär geschrieben in Python und TypeScript
  • Standard-Backing-Services wie PostgreSQL, RabbitMQ, Redis
  • Gitlab & Gitlab CI für das Management des Software Delivery Lifecycle
  • Terraform für Infrastructure as Code

Requirements

Perfektion ist ein Mythos! Uns interessiert der Mensch hinter dem Bildschirm - betrachte diese Kriterien als hilfreiche Orientierung. Wir freuen uns zu sehen, wie deine individuellen Stärken zu uns passen.

  • Du hast nachweisliche Erfahrung im Betrieb von Produktions-Workloads auf Kubernetes in einer Cloud- oder Hybrid-Umgebung
  • Du bist vertraut mit LinuxAdministration, Netzwerken und verteilten Systemen
  • Du hast praktische Erfahrung mit Infrastructure-as-CodeTools wie Terraform oder CloudFormation
  • Du hast mit Configuration-ManagementTools wie SaltStack, Ansible oder Chef gearbeitet
  • Du hast Erfahrung mit Container- und Orchestrierungs-Technologie (Docker, Kubernetes, Helm) im produktiven Einsatz
  • Du verstehst Monitoring und Observability und hast mit Tools wie Datadog, Prometheus oder Grafana gearbeitet
  • Du kommunizierst effektiv in asynchronen, Remote-first-Umgebungen
  • Du bist neugierig, lernst gerne und bist offen für den Einsatz von KI-Tools in deiner täglichen Arbeit
  • Du verfügst über verhandlungssichere Englischkenntnisse (Niveau C1)
  • Nice to have: Erfahrung mit einer Programmiersprache wie Python oder Go
  • Nice to have: Deutschkenntnisse

About the company

* Passe den Arbeitsmodus an deinen Lifestyle an - fully remote oder hybrid mit Office-Option in Köln * Option zum mobilen Arbeiten aus dem Ausland (bis zu drei Monate pro Jahr von überall in der EU oder den USA) * State of the Art Technologie und moderner Tech Stack * Sehr gute Hardware-Ausstattung (16 Zoll MacBooks, 2 Bildschirme an deinem Arbeitsplatz) * 30 Urlaubstage + 3 Corporate Holidays * Unterstützung deiner Gesundheit mit der Urban Sports Club Kooperation * Professionelle Unterstützung rund um mentales Wohlbefinden für dich und deine Familie durch unseren Partner nilo * Flexible Nutzung eines monatlichen Mobilitätsbudgets (z.B. Jobrad, ÖPNV) * Zeit und Budget für individuelles Wachstum * Regelmäßige Tech & Growth Talks für internen Wissensaustausch * Optionale betriebliche Altersvorsorge * Regelmäßige Firmen- und Teamevents

Apply for this position