Network Operations Engineer (Enterprise / Data Center)

Westhouse Consulting GmbH
Frankfurt am Main, Germany
3 days ago

Role details

Contract type
Temporary contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
German
Experience level
Senior

Job location

Frankfurt am Main, Germany

Tech stack

Confluence
JIRA
DevOps
DNS
Routing
Prometheus
Software Engineering
Toolchain
Wide Area Networks
Datadog
Data Logging
Network Routers
Grafana
Mttr
Firewalls (Computer Science)
Infrastructure as Code (IaC)
Gitlab
Kubernetes
Terraform
Artifactory

Job description

  • Übernahme der Tier-3-Betriebsverantwortung für Netzwerk- und Sicherheitsservices in der lokalen Produktionsumgebung (DE)
  • Durchführung und kontinuierliche Verbesserung standardisierter Betriebsprozesse durch Automatisierung (Reduktion manueller Tätigkeiten, Verbesserung von MTTR und Stabilität)
  • Technische Koordination mit Kubernetes-, Daten-, Netzwerk- und Storage-Spezialisten zur Lösung domänenübergreifender Produktionsprobleme
  • Bearbeitung komplexer Konnektivitäts- und Sicherheitsvorfälle sowie Steuerung von Root-Cause-Analysen und nachhaltigen Lösungsmaßnahmen über den gesamten Netzwerk-/Security-Stack hinweg
  • Sicherstellung der Betriebsbereitschaft für Änderungen im Netzwerk- und Sicherheitsumfeld
  • Aufbau und Pflege von Monitoring- und Alerting-Konzepten, Validierungsschritten, Rollback-Strategien sowie Runbooks und Wartungsverfahren
  • Beratung zu compliance-relevanten Betriebsmaßnahmen (z. B. Logging-/Monitoring-Nachweise, Zugriffskontrollen, Koordination von Schwachstellenbehebungen)
  • Abstimmung mit Plattform- und Kubernetes-Teams zur Behebung von Cluster- und Applikationsproblemen infolge von Netzwerk- oder Sicherheitsrestriktionen
  • Sicherstellung der Betriebsbereitschaft für Deployments
  • Validierung von Deployment-Artefakten aus Betriebssicht
  • Definition und Durchsetzung von Qualitätssicherungsmaßnahmen (z. B. erforderliche Dokumentation von Betriebsprozessen, erfolgreiche Testnachweise) zur Sicherstellung hoher Service- und Produktqualität
  • Sicherstellung von Rollback-Strategien und operativem Monitoring (Observability) für Produktionsdeployments
  • Überwachung von Systemzustand, Performance-Kennzahlen und Serviceverfügbarkeit in Multi-Tenant-Umgebungen
  • Identifikation, Analyse und Behebung von Incidents zur Minimierung von Serviceunterbrechungen
  • Initiierung von Root-Cause-Analysen sowie Umsetzung von korrektiven und präventiven Maßnahmen
  • Automatisierung geschäftskritischer Standardbetriebsprozesse zur Reduktion manueller Aufwände und Steigerung der Servicezuverlässigkeit
  • Analyse wiederkehrender Betriebsprobleme und Automatisierung entsprechender Lösungsprozesse
  • Validierung automatisierter Abläufe gemäß etabliertem Softwareentwicklungsprozess (inkl. Staging, Testing und Review)
  • Umsetzung von Monitoring- und Logging-Strategien zur Unterstützung von Audit- und Compliance-Anforderungen
  • Durchführung regelmäßiger Sicherheitsscans sowie Behebung identifizierter Schwachstellen

Requirements

  • ES MUSS ZU JEDEM SKILL MINDESTENS EINE PROJEKTREFERENZ GENANNT WERDEN KÖNNEN !!!!!!!!
  • 5+ Jahre Erfahrung im Betrieb von Enterprise-Netzwerken in Private-Cloud- bzw. Rechenzentrums-Produktionsumgebungen.
  • Nachweisbare Erfahrung in der Implementierung und Leitung von Incident-, Problem-, Change- und Release-Governance im Produktivbetrieb. Fundierte Fähigkeiten im Incident Response und Troubleshooting in den Bereichen Routing, Firewalling, Konnektivität und Service-Exposition.
  • Erfahrung im Bereich Sicherheitsgrundlagen sowie deren operative Umsetzung in Produktionsumgebungen.
  • Erfahrung im Netzwerkbereich: WAN/LAN, Router, Firewalls (Enterprise-Betrieb).
  • Konnektivitätsservices: Private Netzwerke für Mandanten / Konnektivitätsmuster zur Unterstützung von Produktionsplattformen.
  • Fundierte Kenntnisse und tiefes Verständnis zentraler Betriebsprozesse (Incident Management, Change Management, Problem Management, IT Service Management) sowie von SRE-Konzepten.
  • Erfahrung mit DNS und Zertifikaten: DNS-Betrieb sowie Management des Zertifikatslebenszyklus (Ausstellung, Erneuerung, Rotation).
  • ITSM-Tools: Jira Service Management (JSM), Jira, Confluence (für Workflows und Dokumentation).
  • Erfahrung in der Gewinnung operativer Erkenntnisse aus Monitoring und Observability, einschließlich Management und Tracking von SLI/SLA/SLO.
  • Praktische Erfahrung in der strukturierten Dokumentation von Prozessen sowie der Etablierung klarer Runbooks und Playbooks.
  • Praktische Erfahrung im Bereich Observability mit Monitoring- und Logging-Tools (z. B. Prometheus, Grafana, Datadog, Mimir, Loki).
  • Kenntnisse von Enterprise-DevOps-Toolchains sind von Vorteil (GitLab, JFrog Artifactory, Backstage, Harness).
  • Starkes Verständnis moderner Plattform-Operations (Kubernetes/Container, Automatisierung, Observability), ausreichend, um Spezialisten fachlich zu steuern.
  • Verständnis von Plattform-Delivery-Konzepten: GitOps und Infrastructure as Code (IaC) (Terraform/OpenTofu, ArgoCD, Helm) zur Sicherstellung von Deployment- und Readiness-Standards.
  • Expertise in Root-Cause-Analysen und Troubleshooting.

Apply for this position