Senior Storage & Platform Operations Engineer

Westhouse Consulting GmbH

Frankfurt am Main, Germany

2 days ago

Role details

Contract type

Temporary contract

Employment type

Full-time (> 32 hours)

Working hours

Regular working hours

Languages

German

Experience level

Senior

Job location

Frankfurt am Main, Germany

Tech stack

Amazon Web Services (AWS)

Confluence

JIRA

DevOps

Prometheus

Software Engineering

Storage Virtualization

Toolchain

Virtualization Technology

Datadog

Data Logging

Grafana

Mttr

Infrastructure as Code (IaC)

Gitlab

Kubernetes

Terraform

Block Storage

Artifactory

Job description

Übernahme der Tier-3-Betriebsverantwortung für Storage-Produkte in der lokalen Produktionsumgebung (DE)
Bearbeitung komplexer Incidents, tiefgehendes Troubleshooting und Durchführung von Root-Cause-Analysen; Umsetzung dauerhafter Lösungen und präventiver Maßnahmen
Sicherstellung der Betriebsbereitschaft für Storage-Änderungen
Aufbau und Pflege von Monitoring- und Alerting-Abdeckung, Performance-Baselines, Härtung, Patch-Strategien, Rollback- und Recovery-Verfahren sowie Runbooks
Durchführung und kontinuierliche Verbesserung standardisierter Betriebsprozesse durch Automatisierung (Reduktion manueller Tätigkeiten, Verbesserung von MTTR und Stabilität)
Automatisierung standardisierter Betriebsaufgaben (Kapazitätsprüfungen, Validierungsverfahren, Provisioning-Workflows, wo anwendbar)
Sicherstellung der Betriebsbereitschaft für Deployments
Validierung von Deployment-Artefakten aus Betriebssicht
Definition und Durchsetzung von Qualitätssicherungsmaßnahmen (z. B. erforderliche Dokumentation von Betriebsprozessen, erfolgreiche Testnachweise) zur Sicherstellung hoher Produkt- und Servicequalität
Sicherstellung von Rollback-Strategien und operativem Monitoring (Observability) für Produktionsdeployments
Überwachung von Systemzustand, Performance-Kennzahlen und Serviceverfügbarkeit in Multi-Tenant-Umgebungen
Identifikation, Analyse und Behebung von Incidents zur Minimierung von Serviceunterbrechungen
Initiierung von Root-Cause-Analysen sowie Umsetzung korrektiver und präventiver Maßnahmen
Automatisierung kritischer Standardbetriebsprozesse zur Reduktion manueller Aufwände und Steigerung der Servicezuverlässigkeit
Analyse wiederkehrender Betriebsprobleme und Automatisierung entsprechender Lösungsprozesse
Validierung aller automatisierten Abläufe gemäß etabliertem Softwareentwicklungsprozess (inkl. Staging, Testing und Review)
Umsetzung von Monitoring- und Logging-Strategien zur Unterstützung von Audit- und Compliance-Anforderungen
Durchführung regelmäßiger Sicherheitsscans sowie Behebung identifizierter Schwachstellen

Requirements

ES MUSS ZU JEDEM SKILL MINDESTENS EINE REFERENZ GENANNT WERDEN KÖNNEN!!!
5+ Jahre Erfahrung in IT-Storage-Betrieb, Service Delivery oder Plattformbetrieb mit nachgewiesener Führungsverantwortung in geschäftskritischen Umgebungen
Nachweisbare Erfahrung in der Implementierung und Leitung von Incident-, Problem-, Change- und Release-Governance im Produktivbetrieb
Erfahrung in der Unterstützung von Plattform-Workloads, die auf gemeinsame Storage-Services angewiesen sind
Expertise in Storage-Typen: File Storage, Block Storage, Object Storage
Expertise in Protokollen/Services: NFS; Object Storage-Betrieb (S3-ähnliche Konzepte)
Erfahrung mit Kubernetes-Storage-Integration: CSI-Driver-Konzepte und Troubleshooting (Verständnis des PV/PVC-Lifecycle)
Virtualisierung (Storage): Erfahrung im Betrieb von Storage-Virtualisierung in Enterprise-Umgebungen
Expertise im IT Service Management (ITSM): Jira Service Management (JSM), Jira, Confluence
Grundlegendes Verständnis zentraler Betriebsprozesse (Incident Management, Change Management, Problem Management, IT Service Management) sowie SRE-Konzepte
Erfahrung in der Gewinnung operativer Erkenntnisse aus Monitoring und Observability, einschließlich Management und Tracking von SLI/SLA/SLO
Praktische Erfahrung in der strukturierten Dokumentation von Prozessen und der Umsetzung klarer Runbooks und Playbooks
Praktische Erfahrung im Bereich Observability mit Monitoring- und Logging-Tools (z. B. Prometheus, Grafana, Datadog, Mimir, Loki)
Kenntnisse von Enterprise-DevOps-Toolchains sind von Vorteil (GitLab, JFrog Artifactory, Backstage, Harness)
Fundiertes Verständnis moderner Plattform-Operations (Kubernetes/Container, Automatisierung, Observability), ausreichend zur fachlichen Steuerung von Spezialisten
Kenntnisse von Plattform-Delivery-Konzepten: GitOps und Infrastructure as Code (IaC) (Terraform/OpenTofu, ArgoCD, Helm) zur Sicherstellung von Deployment- und Readiness-Standards