Platform/Site Reliability Engineer (SRE)
Role details
Job location
Tech stack
Job description
Desde Izertis nos encontramos en búsqueda de un/a Platform/Site Reliability Engineer (SRE) responsable de garantizar la confiabilidad, rendimiento y disponibilidad de nuestras plataformas críticas: Kong (API Management), Solace (Messaging), Mulesoft (iPaaS) e Informatica (ETL).
Buscamos a alguien con un profundo entendimiento de sistemas distribuidos, tecnologías cloud y pasión por construir plataformas resilientes y escalables., Confiabilidad y rendimiento de plataformas (Enfoque SRE)
-
Garantizar la confiabilidad y disponibilidad de las plataformas Kong, Solace, Mulesoft e Informatica, aplicando los principios SRE de automatización, monitoreo y mejora continua.
-
Identificar y resolver proactivamente posibles incidentes antes de que impacten los entornos productivos, usando análisis predictivo y basado en datos.
-
Desarrollar e implementar sistemas de monitoreo y alertamiento para mantener la salud y el rendimiento de las plataformas.
-
Realizar revisiones post-incidente junto al equipo de soporte, enfocándose en la mejora continua.
-
Ejecutar análisis de causa raíz (RCA) e implementar medidas preventivas automatizadas.
-
Colaborar con equipos de desarrollo, operaciones y seguridad para garantizar operaciones fluidas y promover una cultura compartida de confiabilidad.
-
Gestionar y asegurar el cumplimiento de los SLAs y SLOs de las plataformas, proponiendo mejoras constantes.
-
Evaluar e implementar nuevas herramientas o tecnologías que mejoren la eficiencia y confiabilidad, manteniéndose actualizado con las últimas tendencias en SRE.
️ Ingeniería del caos y resiliencia
- Diseñar, implementar y ejecutar experimentos de ingeniería del caos para detectar vulnerabilidades y puntos débiles en las plataformas de integración.
- Desarrollar y mantener un marco de resiliencia que permita probar de forma sistemática el comportamiento ante fallos.
- Analizar los resultados y colaborar con los equipos de ingeniería para fortalecer la resistencia del sistema.
- Participar en el diseño de sistemas tolerantes a fallos y auto-recuperables.
Recuperación ante desastres y continuidad del negocio
- Colaborar con el equipo DevOps en el desarrollo, mantenimiento y pruebas de planes de recuperación ante desastres (DRP) para las plataformas de integración.
- Participar en ejercicios de DR para validar la efectividad de los planes y proponer mejoras.
- Asegurar la alineación de los planes de DR con los requisitos de continuidad del negocio.
- Implementar y mantener procedimientos de respaldo y recuperación para componentes críticos., * Analizar las dependencias upstream y downstream de las plataformas de integración (p. ej. API Gateway, servicios backend) y evaluar su impacto en la confiabilidad general.
- Implementar monitoreo y alertas para detectar problemas en sistemas dependientes.
- Colaborar con otros equipos para optimizar la confiabilidad de dichos sistemas.
- Diseñar estrategias de tolerancia a fallos (circuit breakers, retries, fallbacks, etc.)., * Trabajar estrechamente con el equipo de soporte para resolver incidencias relacionadas con las plataformas y mejorar los procesos operativos.
- Proporcionar herramientas, documentación y conocimientos técnicos que permitan una resolución eficiente de incidentes., Izertis, con más de 28 años de experiencia, cotizada en el Mercado Continuo BME y entre las 1.000 empresas que más rápido crecen entre los países europeos, te da la oportunidad de desarrollar tu carrera profesional junto a más de 2300 emplead@s a través de sus oficinas distribuidas por Europa, América y África y con presencia en más de 50 países donde prestamos servicios y proyectos a través de un amplio portfolio de soluciones.
Requirements
- Experiencia sólida en Site Reliability Engineering (SRE), DevOps o roles similares.
- Conocimientos profundos en sistemas distribuidos, cloud computing, monitoreo y automatización.
- Experiencia con Kong, Solace, Mulesoft o Informatica (deseable experiencia en más de una).
- Habilidades para el análisis de incidentes, RCA, gestión de SLAs/SLOs y automatización de procesos.
- Conocimiento de prácticas de disaster recovery, ingeniería del caos y resiliencia operativa.
- Excelente comunicación y capacidad para trabajar en equipos multidisciplinarios.
Benefits & conditions
- Entorno colaborativo, ágil y orientado a la innovación.
- Oportunidad de trabajar con tecnologías de integración de clase mundial.
- Formación continua y oportunidades de crecimiento profesional.
- Modalidad flexible (remoto/híbrido).