Platform/Site Reliability Engineer (SRE)

IZERTIS S.A

29 days ago

Role details

Contract type

Permanent contract

Employment type

Full-time (> 32 hours)

Working hours

Regular working hours

Languages

Spanish

Job location

Remote

Tech stack

Cloud Computing

DevOps

Disaster Recovery

Distributed Systems

Fault Tolerance

Backend

Information Technology

Api Gateway

Mulesoft

Job description

Desde Izertis nos encontramos en búsqueda de un/a Platform/Site Reliability Engineer (SRE) responsable de garantizar la confiabilidad, rendimiento y disponibilidad de nuestras plataformas críticas: Kong (API Management), Solace (Messaging), Mulesoft (iPaaS) e Informatica (ETL).

Buscamos a alguien con un profundo entendimiento de sistemas distribuidos, tecnologías cloud y pasión por construir plataformas resilientes y escalables., Confiabilidad y rendimiento de plataformas (Enfoque SRE)

Garantizar la confiabilidad y disponibilidad de las plataformas Kong, Solace, Mulesoft e Informatica, aplicando los principios SRE de automatización, monitoreo y mejora continua.
Identificar y resolver proactivamente posibles incidentes antes de que impacten los entornos productivos, usando análisis predictivo y basado en datos.
Desarrollar e implementar sistemas de monitoreo y alertamiento para mantener la salud y el rendimiento de las plataformas.
Realizar revisiones post-incidente junto al equipo de soporte, enfocándose en la mejora continua.
Ejecutar análisis de causa raíz (RCA) e implementar medidas preventivas automatizadas.
Colaborar con equipos de desarrollo, operaciones y seguridad para garantizar operaciones fluidas y promover una cultura compartida de confiabilidad.
Gestionar y asegurar el cumplimiento de los SLAs y SLOs de las plataformas, proponiendo mejoras constantes.
Evaluar e implementar nuevas herramientas o tecnologías que mejoren la eficiencia y confiabilidad, manteniéndose actualizado con las últimas tendencias en SRE.

️ Ingeniería del caos y resiliencia

Diseñar, implementar y ejecutar experimentos de ingeniería del caos para detectar vulnerabilidades y puntos débiles en las plataformas de integración.
Desarrollar y mantener un marco de resiliencia que permita probar de forma sistemática el comportamiento ante fallos.
Analizar los resultados y colaborar con los equipos de ingeniería para fortalecer la resistencia del sistema.
Participar en el diseño de sistemas tolerantes a fallos y auto-recuperables.

Recuperación ante desastres y continuidad del negocio

Colaborar con el equipo DevOps en el desarrollo, mantenimiento y pruebas de planes de recuperación ante desastres (DRP) para las plataformas de integración.
Participar en ejercicios de DR para validar la efectividad de los planes y proponer mejoras.
Asegurar la alineación de los planes de DR con los requisitos de continuidad del negocio.
Implementar y mantener procedimientos de respaldo y recuperación para componentes críticos., * Analizar las dependencias upstream y downstream de las plataformas de integración (p. ej. API Gateway, servicios backend) y evaluar su impacto en la confiabilidad general.
Implementar monitoreo y alertas para detectar problemas en sistemas dependientes.
Colaborar con otros equipos para optimizar la confiabilidad de dichos sistemas.
Diseñar estrategias de tolerancia a fallos (circuit breakers, retries, fallbacks, etc.)., * Trabajar estrechamente con el equipo de soporte para resolver incidencias relacionadas con las plataformas y mejorar los procesos operativos.
Proporcionar herramientas, documentación y conocimientos técnicos que permitan una resolución eficiente de incidentes., Izertis, con más de 28 años de experiencia, cotizada en el Mercado Continuo BME y entre las 1.000 empresas que más rápido crecen entre los países europeos, te da la oportunidad de desarrollar tu carrera profesional junto a más de 2300 emplead@s a través de sus oficinas distribuidas por Europa, América y África y con presencia en más de 50 países donde prestamos servicios y proyectos a través de un amplio portfolio de soluciones.

Requirements

Experiencia sólida en Site Reliability Engineering (SRE), DevOps o roles similares.
Conocimientos profundos en sistemas distribuidos, cloud computing, monitoreo y automatización.
Experiencia con Kong, Solace, Mulesoft o Informatica (deseable experiencia en más de una).
Habilidades para el análisis de incidentes, RCA, gestión de SLAs/SLOs y automatización de procesos.
Conocimiento de prácticas de disaster recovery, ingeniería del caos y resiliencia operativa.
Excelente comunicación y capacidad para trabajar en equipos multidisciplinarios.