Senior Storage & Platform Operations Engineer

Westhouse Consulting GmbH
Frankfurt am Main, Germany
2 days ago

Role details

Contract type
Temporary contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
German
Experience level
Senior

Job location

Frankfurt am Main, Germany

Tech stack

Amazon Web Services (AWS)
Confluence
JIRA
DevOps
Prometheus
Software Engineering
Storage Virtualization
Toolchain
Virtualization Technology
Datadog
Data Logging
Grafana
Mttr
Infrastructure as Code (IaC)
Gitlab
Kubernetes
Terraform
Block Storage
Artifactory

Job description

  • Übernahme der Tier-3-Betriebsverantwortung für Storage-Produkte in der lokalen Produktionsumgebung (DE)
  • Bearbeitung komplexer Incidents, tiefgehendes Troubleshooting und Durchführung von Root-Cause-Analysen; Umsetzung dauerhafter Lösungen und präventiver Maßnahmen
  • Sicherstellung der Betriebsbereitschaft für Storage-Änderungen
  • Aufbau und Pflege von Monitoring- und Alerting-Abdeckung, Performance-Baselines, Härtung, Patch-Strategien, Rollback- und Recovery-Verfahren sowie Runbooks
  • Durchführung und kontinuierliche Verbesserung standardisierter Betriebsprozesse durch Automatisierung (Reduktion manueller Tätigkeiten, Verbesserung von MTTR und Stabilität)
  • Automatisierung standardisierter Betriebsaufgaben (Kapazitätsprüfungen, Validierungsverfahren, Provisioning-Workflows, wo anwendbar)
  • Sicherstellung der Betriebsbereitschaft für Deployments
  • Validierung von Deployment-Artefakten aus Betriebssicht
  • Definition und Durchsetzung von Qualitätssicherungsmaßnahmen (z. B. erforderliche Dokumentation von Betriebsprozessen, erfolgreiche Testnachweise) zur Sicherstellung hoher Produkt- und Servicequalität
  • Sicherstellung von Rollback-Strategien und operativem Monitoring (Observability) für Produktionsdeployments
  • Überwachung von Systemzustand, Performance-Kennzahlen und Serviceverfügbarkeit in Multi-Tenant-Umgebungen
  • Identifikation, Analyse und Behebung von Incidents zur Minimierung von Serviceunterbrechungen
  • Initiierung von Root-Cause-Analysen sowie Umsetzung korrektiver und präventiver Maßnahmen
  • Automatisierung kritischer Standardbetriebsprozesse zur Reduktion manueller Aufwände und Steigerung der Servicezuverlässigkeit
  • Analyse wiederkehrender Betriebsprobleme und Automatisierung entsprechender Lösungsprozesse
  • Validierung aller automatisierten Abläufe gemäß etabliertem Softwareentwicklungsprozess (inkl. Staging, Testing und Review)
  • Umsetzung von Monitoring- und Logging-Strategien zur Unterstützung von Audit- und Compliance-Anforderungen
  • Durchführung regelmäßiger Sicherheitsscans sowie Behebung identifizierter Schwachstellen

Requirements

  • ES MUSS ZU JEDEM SKILL MINDESTENS EINE REFERENZ GENANNT WERDEN KÖNNEN!!!
  • 5+ Jahre Erfahrung in IT-Storage-Betrieb, Service Delivery oder Plattformbetrieb mit nachgewiesener Führungsverantwortung in geschäftskritischen Umgebungen
  • Nachweisbare Erfahrung in der Implementierung und Leitung von Incident-, Problem-, Change- und Release-Governance im Produktivbetrieb
  • Erfahrung in der Unterstützung von Plattform-Workloads, die auf gemeinsame Storage-Services angewiesen sind
  • Expertise in Storage-Typen: File Storage, Block Storage, Object Storage
  • Expertise in Protokollen/Services: NFS; Object Storage-Betrieb (S3-ähnliche Konzepte)
  • Erfahrung mit Kubernetes-Storage-Integration: CSI-Driver-Konzepte und Troubleshooting (Verständnis des PV/PVC-Lifecycle)
  • Virtualisierung (Storage): Erfahrung im Betrieb von Storage-Virtualisierung in Enterprise-Umgebungen
  • Expertise im IT Service Management (ITSM): Jira Service Management (JSM), Jira, Confluence
  • Grundlegendes Verständnis zentraler Betriebsprozesse (Incident Management, Change Management, Problem Management, IT Service Management) sowie SRE-Konzepte
  • Erfahrung in der Gewinnung operativer Erkenntnisse aus Monitoring und Observability, einschließlich Management und Tracking von SLI/SLA/SLO
  • Praktische Erfahrung in der strukturierten Dokumentation von Prozessen und der Umsetzung klarer Runbooks und Playbooks
  • Praktische Erfahrung im Bereich Observability mit Monitoring- und Logging-Tools (z. B. Prometheus, Grafana, Datadog, Mimir, Loki)
  • Kenntnisse von Enterprise-DevOps-Toolchains sind von Vorteil (GitLab, JFrog Artifactory, Backstage, Harness)
  • Fundiertes Verständnis moderner Plattform-Operations (Kubernetes/Container, Automatisierung, Observability), ausreichend zur fachlichen Steuerung von Spezialisten
  • Kenntnisse von Plattform-Delivery-Konzepten: GitOps und Infrastructure as Code (IaC) (Terraform/OpenTofu, ArgoCD, Helm) zur Sicherstellung von Deployment- und Readiness-Standards

Apply for this position