Platform/Site Reliability Engineer (SRE)

IZERTIS S.A
29 days ago

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
Spanish

Job location

Remote

Tech stack

Cloud Computing
DevOps
Disaster Recovery
Distributed Systems
Fault Tolerance
Backend
Information Technology
Api Gateway
Mulesoft

Job description

Desde Izertis nos encontramos en búsqueda de un/a Platform/Site Reliability Engineer (SRE) responsable de garantizar la confiabilidad, rendimiento y disponibilidad de nuestras plataformas críticas: Kong (API Management), Solace (Messaging), Mulesoft (iPaaS) e Informatica (ETL).

Buscamos a alguien con un profundo entendimiento de sistemas distribuidos, tecnologías cloud y pasión por construir plataformas resilientes y escalables., Confiabilidad y rendimiento de plataformas (Enfoque SRE)

  • Garantizar la confiabilidad y disponibilidad de las plataformas Kong, Solace, Mulesoft e Informatica, aplicando los principios SRE de automatización, monitoreo y mejora continua.

  • Identificar y resolver proactivamente posibles incidentes antes de que impacten los entornos productivos, usando análisis predictivo y basado en datos.

  • Desarrollar e implementar sistemas de monitoreo y alertamiento para mantener la salud y el rendimiento de las plataformas.

  • Realizar revisiones post-incidente junto al equipo de soporte, enfocándose en la mejora continua.

  • Ejecutar análisis de causa raíz (RCA) e implementar medidas preventivas automatizadas.

  • Colaborar con equipos de desarrollo, operaciones y seguridad para garantizar operaciones fluidas y promover una cultura compartida de confiabilidad.

  • Gestionar y asegurar el cumplimiento de los SLAs y SLOs de las plataformas, proponiendo mejoras constantes.

  • Evaluar e implementar nuevas herramientas o tecnologías que mejoren la eficiencia y confiabilidad, manteniéndose actualizado con las últimas tendencias en SRE.

️ Ingeniería del caos y resiliencia

  • Diseñar, implementar y ejecutar experimentos de ingeniería del caos para detectar vulnerabilidades y puntos débiles en las plataformas de integración.
  • Desarrollar y mantener un marco de resiliencia que permita probar de forma sistemática el comportamiento ante fallos.
  • Analizar los resultados y colaborar con los equipos de ingeniería para fortalecer la resistencia del sistema.
  • Participar en el diseño de sistemas tolerantes a fallos y auto-recuperables.

Recuperación ante desastres y continuidad del negocio

  • Colaborar con el equipo DevOps en el desarrollo, mantenimiento y pruebas de planes de recuperación ante desastres (DRP) para las plataformas de integración.
  • Participar en ejercicios de DR para validar la efectividad de los planes y proponer mejoras.
  • Asegurar la alineación de los planes de DR con los requisitos de continuidad del negocio.
  • Implementar y mantener procedimientos de respaldo y recuperación para componentes críticos., * Analizar las dependencias upstream y downstream de las plataformas de integración (p. ej. API Gateway, servicios backend) y evaluar su impacto en la confiabilidad general.
  • Implementar monitoreo y alertas para detectar problemas en sistemas dependientes.
  • Colaborar con otros equipos para optimizar la confiabilidad de dichos sistemas.
  • Diseñar estrategias de tolerancia a fallos (circuit breakers, retries, fallbacks, etc.)., * Trabajar estrechamente con el equipo de soporte para resolver incidencias relacionadas con las plataformas y mejorar los procesos operativos.
  • Proporcionar herramientas, documentación y conocimientos técnicos que permitan una resolución eficiente de incidentes., Izertis, con más de 28 años de experiencia, cotizada en el Mercado Continuo BME y entre las 1.000 empresas que más rápido crecen entre los países europeos, te da la oportunidad de desarrollar tu carrera profesional junto a más de 2300 emplead@s a través de sus oficinas distribuidas por Europa, América y África y con presencia en más de 50 países donde prestamos servicios y proyectos a través de un amplio portfolio de soluciones.

Requirements

  • Experiencia sólida en Site Reliability Engineering (SRE), DevOps o roles similares.
  • Conocimientos profundos en sistemas distribuidos, cloud computing, monitoreo y automatización.
  • Experiencia con Kong, Solace, Mulesoft o Informatica (deseable experiencia en más de una).
  • Habilidades para el análisis de incidentes, RCA, gestión de SLAs/SLOs y automatización de procesos.
  • Conocimiento de prácticas de disaster recovery, ingeniería del caos y resiliencia operativa.
  • Excelente comunicación y capacidad para trabajar en equipos multidisciplinarios.

Benefits & conditions

  • Entorno colaborativo, ágil y orientado a la innovación.
  • Oportunidad de trabajar con tecnologías de integración de clase mundial.
  • Formación continua y oportunidades de crecimiento profesional.
  • Modalidad flexible (remoto/híbrido).

Apply for this position