Founding Senior AI Platform / SRE Engineer
Role details
Job location
Tech stack
Job description
Vas a asegurar que la infraestructura, los despliegues y la capa de serving de IA sigan funcionando cuando el producto deje de ser una demo. Serás responsable de reliability, deployment, observabilidad, capacity management, autoscaling, recovery, CI/CD, cost engineering, model serving support y las bases del model routing operacional.
La razón por la que este rol existe es concreta: en una plataforma de IA, la fiabilidad no es solo disponibilidad. Es también controlar latencia, costo, rate limits, fallos de proveedor, timeouts, saturación de workers, capacity planning, observabilidad de inferencia y rutas de fallback. Si alguno de esos elementos se ignora, la plataforma se cae o se vuelve incosteable - y ambos problemas matan startups., Trabajamos presencialmente en Madrid. Es una decisión consciente: en fase fundacional, la velocidad de iteración y la calidad de las decisiones técnicas que se toman en una pizarra compartida son difíciles de replicar en remoto.
Operamos con poco proceso y mucha responsabilidad. Quien despliega un sistema también lo opera. Quien define un SLO también es responsable cuando se rompe. No tratamos la infraestructura como una capa separada del producto - es parte del producto, con sus propios dueños, métricas y trade-offs.
Requirements
Una parte del trabajo es operar APIs managed con criterio, y preparar el camino para usar modelos open-weight self-hosted donde tenga sentido. No tienes que ser experto de bajo nivel en GPUs, pero sí necesitas entender cómo operar workloads de IA con fiabilidad, costo y portabilidad., * Entornos de desarrollo, staging y producción reproducibles, con CI/CD sólido, IaC y rollback readiness desde el principio.
- Observabilidad end-to-end: logs, metrics, traces, alerts y dashboards operativos que permitan depurar incidentes reales, no solo decorar pantallas.
- SLOs iniciales, on-call serio, incident response y postmortems - la base operacional antes de beta.
- Autoscaling, capacity planning y cost controls. Disponibilidad sin control de costo y latencia no es suficiente en una plataforma de IA.
- Las bases de inference endpoints, model serving y model routing operacional - incluyendo rutas de fallback ante caída de proveedor o saturación.
- Métricas funcionales de workloads de IA: por modelo, proveedor, tenant, task, costo y latencia. Sin esas métricas, no hay forma de operar costo ni calidad.
- Separación clara entre control plane e inference plane, en coordinación con el equipo fundador., Más que un perfil cerrado, buscamos un conjunto de competencias demostrables:
- Track record real de ownership de producción - has gestionado incidentes serios, has tomado decisiones bajo presión y puedes explicar qué aprendiste.
- Sólido en CI/CD e IaC (Terraform, Pulumi o equivalentes). Despliegues reproducibles, rollback readiness, no "funciona en mi máquina".
- Observabilidad de verdad: logs, metrics, traces, alerts. Capacidad de depurar bajo presión con herramientas como OpenTelemetry, Datadog, Grafana/Prometheus o equivalentes.
- Capacity planning y cost engineering - entiendes que la fiabilidad sin control de costo no es fiabilidad sostenible.
- Cómodo con AWS, Docker, Kubernetes (EKS/ECS) o equivalentes. Networking básico, IAM, secrets, hardening.
- Comprensión práctica de model serving y operación de workloads de IA, aunque no seas experto de bajo nivel en GPUs.
- Criterio sobre cuándo usar APIs managed y cuándo preparar self-hosted - entiendes los trade-offs de costo, latencia, fiabilidad, privacidad y portabilidad.
- Nivel profesional de español, vinculado a la naturaleza del puesto, e inglés funcional para trabajar en un equipo bilingüe., * Tienes experiencia hands-on con vLLM, SGLang, Triton, TGI, Ray Serve, KServe, SageMaker, Bedrock o equivalentes de model serving.
- Has trabajado con GPU workloads, inferencia, batch processing o sistemas de high-throughput en producción.
- Has operado sistemas multi-tenant con datos sensibles o requisitos de compliance.
- Tienes experiencia con FinOps o cost engineering en cloud - no solo monitorizar, sino actuar sobre el costo.
- Vienes de fintech, SaaS enterprise, data platforms o sistemas de alta carga.