Network Operations Engineer (Enterprise / Data Center)

Westhouse Consulting GmbH

Frankfurt am Main, Germany

3 days ago

Role details

Contract type

Temporary contract

Employment type

Full-time (> 32 hours)

Working hours

Regular working hours

Languages

German

Experience level

Senior

Job location

Frankfurt am Main, Germany

Tech stack

Confluence

JIRA

DevOps

DNS

Routing

Prometheus

Software Engineering

Toolchain

Wide Area Networks

Datadog

Data Logging

Network Routers

Grafana

Mttr

Firewalls (Computer Science)

Infrastructure as Code (IaC)

Gitlab

Kubernetes

Terraform

Artifactory

Job description

Übernahme der Tier-3-Betriebsverantwortung für Netzwerk- und Sicherheitsservices in der lokalen Produktionsumgebung (DE)
Durchführung und kontinuierliche Verbesserung standardisierter Betriebsprozesse durch Automatisierung (Reduktion manueller Tätigkeiten, Verbesserung von MTTR und Stabilität)
Technische Koordination mit Kubernetes-, Daten-, Netzwerk- und Storage-Spezialisten zur Lösung domänenübergreifender Produktionsprobleme
Bearbeitung komplexer Konnektivitäts- und Sicherheitsvorfälle sowie Steuerung von Root-Cause-Analysen und nachhaltigen Lösungsmaßnahmen über den gesamten Netzwerk-/Security-Stack hinweg
Sicherstellung der Betriebsbereitschaft für Änderungen im Netzwerk- und Sicherheitsumfeld
Aufbau und Pflege von Monitoring- und Alerting-Konzepten, Validierungsschritten, Rollback-Strategien sowie Runbooks und Wartungsverfahren
Beratung zu compliance-relevanten Betriebsmaßnahmen (z. B. Logging-/Monitoring-Nachweise, Zugriffskontrollen, Koordination von Schwachstellenbehebungen)
Abstimmung mit Plattform- und Kubernetes-Teams zur Behebung von Cluster- und Applikationsproblemen infolge von Netzwerk- oder Sicherheitsrestriktionen
Sicherstellung der Betriebsbereitschaft für Deployments
Validierung von Deployment-Artefakten aus Betriebssicht
Definition und Durchsetzung von Qualitätssicherungsmaßnahmen (z. B. erforderliche Dokumentation von Betriebsprozessen, erfolgreiche Testnachweise) zur Sicherstellung hoher Service- und Produktqualität
Sicherstellung von Rollback-Strategien und operativem Monitoring (Observability) für Produktionsdeployments
Überwachung von Systemzustand, Performance-Kennzahlen und Serviceverfügbarkeit in Multi-Tenant-Umgebungen
Identifikation, Analyse und Behebung von Incidents zur Minimierung von Serviceunterbrechungen
Initiierung von Root-Cause-Analysen sowie Umsetzung von korrektiven und präventiven Maßnahmen
Automatisierung geschäftskritischer Standardbetriebsprozesse zur Reduktion manueller Aufwände und Steigerung der Servicezuverlässigkeit
Analyse wiederkehrender Betriebsprobleme und Automatisierung entsprechender Lösungsprozesse
Validierung automatisierter Abläufe gemäß etabliertem Softwareentwicklungsprozess (inkl. Staging, Testing und Review)
Umsetzung von Monitoring- und Logging-Strategien zur Unterstützung von Audit- und Compliance-Anforderungen
Durchführung regelmäßiger Sicherheitsscans sowie Behebung identifizierter Schwachstellen

Requirements

ES MUSS ZU JEDEM SKILL MINDESTENS EINE PROJEKTREFERENZ GENANNT WERDEN KÖNNEN !!!!!!!!
5+ Jahre Erfahrung im Betrieb von Enterprise-Netzwerken in Private-Cloud- bzw. Rechenzentrums-Produktionsumgebungen.
Nachweisbare Erfahrung in der Implementierung und Leitung von Incident-, Problem-, Change- und Release-Governance im Produktivbetrieb. Fundierte Fähigkeiten im Incident Response und Troubleshooting in den Bereichen Routing, Firewalling, Konnektivität und Service-Exposition.
Erfahrung im Bereich Sicherheitsgrundlagen sowie deren operative Umsetzung in Produktionsumgebungen.
Erfahrung im Netzwerkbereich: WAN/LAN, Router, Firewalls (Enterprise-Betrieb).
Konnektivitätsservices: Private Netzwerke für Mandanten / Konnektivitätsmuster zur Unterstützung von Produktionsplattformen.
Fundierte Kenntnisse und tiefes Verständnis zentraler Betriebsprozesse (Incident Management, Change Management, Problem Management, IT Service Management) sowie von SRE-Konzepten.
Erfahrung mit DNS und Zertifikaten: DNS-Betrieb sowie Management des Zertifikatslebenszyklus (Ausstellung, Erneuerung, Rotation).
ITSM-Tools: Jira Service Management (JSM), Jira, Confluence (für Workflows und Dokumentation).
Erfahrung in der Gewinnung operativer Erkenntnisse aus Monitoring und Observability, einschließlich Management und Tracking von SLI/SLA/SLO.
Praktische Erfahrung in der strukturierten Dokumentation von Prozessen sowie der Etablierung klarer Runbooks und Playbooks.
Praktische Erfahrung im Bereich Observability mit Monitoring- und Logging-Tools (z. B. Prometheus, Grafana, Datadog, Mimir, Loki).
Kenntnisse von Enterprise-DevOps-Toolchains sind von Vorteil (GitLab, JFrog Artifactory, Backstage, Harness).
Starkes Verständnis moderner Plattform-Operations (Kubernetes/Container, Automatisierung, Observability), ausreichend, um Spezialisten fachlich zu steuern.
Verständnis von Plattform-Delivery-Konzepten: GitOps und Infrastructure as Code (IaC) (Terraform/OpenTofu, ArgoCD, Helm) zur Sicherstellung von Deployment- und Readiness-Standards.
Expertise in Root-Cause-Analysen und Troubleshooting.