Founding Senior AI Platform / SRE Engineer

naiian
Municipality of Las Rozas de Madrid, Spain
yesterday

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
English, Spanish

Job location

Remote
Municipality of Las Rozas de Madrid, Spain

Tech stack

API
Artificial Intelligence
Amazon Web Services (AWS)
Software as a Service
Continuous Integration
Identity and Access Management
Integrated Development Environments
Prometheus
Datadog
Graphics Processing Unit (GPU)
Autoscaling
Grafana
Kubernetes
Docker

Job description

Vas a asegurar que la infraestructura, los despliegues y la capa de serving de IA sigan funcionando cuando el producto deje de ser una demo. Serás responsable de reliability, deployment, observabilidad, capacity management, autoscaling, recovery, CI/CD, cost engineering, model serving support y las bases del model routing operacional.

La razón por la que este rol existe es concreta: en una plataforma de IA, la fiabilidad no es solo disponibilidad. Es también controlar latencia, costo, rate limits, fallos de proveedor, timeouts, saturación de workers, capacity planning, observabilidad de inferencia y rutas de fallback. Si alguno de esos elementos se ignora, la plataforma se cae o se vuelve incosteable - y ambos problemas matan startups., Trabajamos presencialmente en Madrid. Es una decisión consciente: en fase fundacional, la velocidad de iteración y la calidad de las decisiones técnicas que se toman en una pizarra compartida son difíciles de replicar en remoto.

Operamos con poco proceso y mucha responsabilidad. Quien despliega un sistema también lo opera. Quien define un SLO también es responsable cuando se rompe. No tratamos la infraestructura como una capa separada del producto - es parte del producto, con sus propios dueños, métricas y trade-offs.

Requirements

Una parte del trabajo es operar APIs managed con criterio, y preparar el camino para usar modelos open-weight self-hosted donde tenga sentido. No tienes que ser experto de bajo nivel en GPUs, pero sí necesitas entender cómo operar workloads de IA con fiabilidad, costo y portabilidad., * Entornos de desarrollo, staging y producción reproducibles, con CI/CD sólido, IaC y rollback readiness desde el principio.

  • Observabilidad end-to-end: logs, metrics, traces, alerts y dashboards operativos que permitan depurar incidentes reales, no solo decorar pantallas.
  • SLOs iniciales, on-call serio, incident response y postmortems - la base operacional antes de beta.
  • Autoscaling, capacity planning y cost controls. Disponibilidad sin control de costo y latencia no es suficiente en una plataforma de IA.
  • Las bases de inference endpoints, model serving y model routing operacional - incluyendo rutas de fallback ante caída de proveedor o saturación.
  • Métricas funcionales de workloads de IA: por modelo, proveedor, tenant, task, costo y latencia. Sin esas métricas, no hay forma de operar costo ni calidad.
  • Separación clara entre control plane e inference plane, en coordinación con el equipo fundador., Más que un perfil cerrado, buscamos un conjunto de competencias demostrables:
  • Track record real de ownership de producción - has gestionado incidentes serios, has tomado decisiones bajo presión y puedes explicar qué aprendiste.
  • Sólido en CI/CD e IaC (Terraform, Pulumi o equivalentes). Despliegues reproducibles, rollback readiness, no "funciona en mi máquina".
  • Observabilidad de verdad: logs, metrics, traces, alerts. Capacidad de depurar bajo presión con herramientas como OpenTelemetry, Datadog, Grafana/Prometheus o equivalentes.
  • Capacity planning y cost engineering - entiendes que la fiabilidad sin control de costo no es fiabilidad sostenible.
  • Cómodo con AWS, Docker, Kubernetes (EKS/ECS) o equivalentes. Networking básico, IAM, secrets, hardening.
  • Comprensión práctica de model serving y operación de workloads de IA, aunque no seas experto de bajo nivel en GPUs.
  • Criterio sobre cuándo usar APIs managed y cuándo preparar self-hosted - entiendes los trade-offs de costo, latencia, fiabilidad, privacidad y portabilidad.
  • Nivel profesional de español, vinculado a la naturaleza del puesto, e inglés funcional para trabajar en un equipo bilingüe., * Tienes experiencia hands-on con vLLM, SGLang, Triton, TGI, Ray Serve, KServe, SageMaker, Bedrock o equivalentes de model serving.
  • Has trabajado con GPU workloads, inferencia, batch processing o sistemas de high-throughput en producción.
  • Has operado sistemas multi-tenant con datos sensibles o requisitos de compliance.
  • Tienes experiencia con FinOps o cost engineering en cloud - no solo monitorizar, sino actuar sobre el costo.
  • Vienes de fintech, SaaS enterprise, data platforms o sistemas de alta carga.

About the company

La pregunta no es si sabes operar infraestructura. La pregunta es si sabes operar una plataforma de IA cuando la fiabilidad ya no es solo disponibilidad - cuando hay que controlar latencia, costo, rate limits de proveedor, timeouts, saturación de workers, observabilidad de inferencia y rutas de fallback ante caída de un modelo a las tres de la mañana. Y si sabes hacerlo sin convertir la empresa en un laboratorio de Kubernetes mientras el producto se estanca., Este rol existe porque, en una plataforma de IA, ignorar cualquiera de esos elementos no produce un incidente: produce una empresa que no escala, o que escala de forma incosteable. Y ambos problemas matan startups antes de que el producto tenga oportunidad de demostrar lo que vale. Lo que vas a construir es la capa que asegura que la plataforma siga funcionando cuando deje de ser una demo, con criterio sobre cuándo usar APIs managed y cuándo preparar self-hosted. Si esto resuena, sigue leyendo., Naiian es una startup Deep Tech europea con equipo en Madrid, well-funded y con un equipo fundador con trayectoria en producto, IA aplicada e ingeniería en entornos críticos. Construimos para clientes que operan en contextos de alta exigencia operativa y decisional, donde la auditabilidad, la integración con fuentes verificables y los mecanismos de aprobación humana sobre tareas sensibles no son features - son la base. Estamos en fase fundacional. Las personas que se incorporan ahora definen la arquitectura, el código y la cultura técnica que la empresa heredará durante los próximos años.

Apply for this position