Manager - Major Incident Management
Role details
Job location
Tech stack
Job description
Als Manager für Major Incident Management sind Sie verantwortlich dafür, wie Sonar Vorfälle in seinen kritischen Systemen verhindert, darauf reagiert und daraus lernt. Sie steuern die Programme für Incident Management, Change Management und Problem Management durch einen datengetriebenen, risikobasierten Ansatz - und stellen sicher, dass die Priorisierung durch messbare Auswirkungen und nicht durch reaktive Dringlichkeit geleitet wird. Durch den Aufbau klarer operativer Gesundheitskennzahlen und die Bereitstellung konsistenter Transparenz in Bezug auf Servicezuverlässigkeit, Änderungsrisiken und systemische Muster geben Sie der Führungsebene die Einblicke, die sie für sichere Entscheidungen benötigt, und Ihrem Team die Klarheit, sich auf das Wesentliche zu konzentrieren., * Führen Sie die Programme für Incident, Change und Problem Management von Anfang bis Ende und wenden Sie einen risikobasierten Rahmen an, um die Bemühungen im Unternehmen dort zu priorisieren, wo sie das größte organisatorische Risiko reduzieren
- Definieren, pflegen und berichten Sie über operative Gesundheitskennzahlen, die klare, fortlaufende Transparenz über Serviceverfügbarkeit, Vorfalltrends, Änderungs-Erfolgsraten und Restrisiken bieten
- Liefern Sie regelmäßige operative Berichte an die Führungsebene, die systemische Muster, ungelöste Nachverfolgungen und Bereiche mit erhöhtem Risiko mit klaren Empfehlungen aufzeigen
- Coachen und entwickeln Sie ein Team von Major Incident Managern, setzen Sie klare Erwartungen für strukturierte Vorfallleitung, Stakeholder-Kommunikation und Nachverfolgung nach Vorfällen
- Verantworten Sie den Post-Incident-Review-Prozess und sorgen Sie für eine schuldlose, qualitativ hochwertige Analyse, die Erkenntnisse in priorisierte Problemaufzeichnungen und messbare Verbesserungen umsetzt
- Verantworten und verbessern Sie kontinuierlich den Change-Management-Prozess, indem Sie Liefergeschwindigkeit mit Risikoreduzierung durch klare Klassifikations-, Genehmigungs- und Überprüfungsstandards ausbalancieren
- Arbeiten Sie mit Engineering, Produkt, Sicherheit und Mission Control zusammen, um die Risikobereitschaft abzustimmen, die Zeit bis zur Minderung zu verkürzen und sicherzustellen, dass die Änderungssteuerung die Produkt-Roadmap unterstützt
- Nutzen Sie Vorfall-, Problem- und Änderungsdaten, um wiederkehrende Fehler, schwache Kontrollen und systemische Ursachen zu identifizieren - und treiben Sie die Priorisierung von Korrekturmaßnahmen basierend auf strategischer Wirkung voran
Requirements
- 5-8 Jahre Erfahrung in der Leitung von Teams, die Major Incident Management und Problem Management Funktionen in multinationalen, verteilten Unternehmen erbringen
- Nachgewiesene Erfahrung in der Mitarbeiterführung von operativen oder vorfallsorientierten Teams (z. B. Incident Manager, SRE, NOC/Command Center)
- Erfolgreiche Erfahrung in der Definition operativer Kennzahlen und im Aufbau von Berichten, die der Führungsebene klare Einblicke in die operative Gesundheit und Risiken geben
- Gutes Verständnis von ITIL oder ähnlichen Service-Management-Frameworks (Incident, Problem und Change Management), pragmatisch angewandt in modernen Engineering-Organisationen
- Nachgewiesene Fähigkeit, kritische Vorfälle unter Druck mit Struktur, Klarheit und ruhiger Entscheidungsfindung zu leiten
- Erfahrung im Aufbau oder der Reifung von Post-Incident-Review-Praktiken und der Umsetzung von Erkenntnissen in systemische Verbesserungen
- Vertrautheit mit Atlassian-Produkten und ITSM-Plattformen (z. B. Jira Service Management, Confluence, Statuspage)
- Erfahrung in der Nutzung oder Entwicklung von KI-Tools zur Verbesserung von Korrelation, Genauigkeit und Geschwindigkeit bei der Behebung von Ausfällen und im Problemmanagement
- Ausgezeichnete schriftliche und mündliche Kommunikationsfähigkeiten in Englisch, mit der Fähigkeit, Botschaften an Führungskräfte, Ingenieure und nicht-technische Stakeholder anzupassen