AI Platform / AIOps Engineer
Role details
Job location
Tech stack
Job description
Als AI Platform / AIOps Engineer bij SURF bouw en beheer je de diensten en de orchestration-laag van de Dutch AI Factory. Je werkt aan de integratie van Slurm en Kubernetes, implementeert MLOps-tools en infrastructuur voor het aanbieden van modellen, en zorgt ervoor dat onderzoekers, bedrijven en overheidsorganisaties AI-workloads betrouwbaar en op schaal kunnen uitvoeren. Je werkt op het snijvlak van high-performance computing, cloud-native technologieën en AI-infrastructuur.
- Het ontwerpen en implementeren van sandbox-omgevingen op gecontaineriseerde HPC/Kubernetes-infrastructuur Het bouwen van de Slurm
- Kubernetes-integratie, inclusief IAM, accounting/quotas, logging, monitoring en gebruikersinterfaces.
- Het implementeren en beheren van MLOps- en runtime-services, zoals het bijhouden van experimenten, CI/CD-pijplijnen en model serving (Triton, vLLM, TensorRT-LLM, ONNX Runtime)
- Het ontwikkelen van portabiliteitstools om workflows te verplaatsen tussen AI Factory-omgevingen, institutionele systemen en cloudplatforms
- Implementeren van LLM/GPAI-sandboxes met veiligheidsfilters, logboekregistratie, rate limiting en monitoring
- Implementeren van energiebewuste planning en duurzaamheidsdashboards
- Ondersteunen van de EuroHPC-federatie en interoperabiliteit met andere AI Factories
- Verstrekken van infrastructuur voor co-creatie en toegang (bijv. Jupyter, VS Code, projectruimtes)
Requirements
Ben je klaar om de ruggengraat van de Nederlandse AI Factory te bouwen en te beheren, waar high-performance computing, cloud-native technologieën en AI samenkomen? Bij SURF speel je een sleutelrol bij het ontwerpen en opschalen van een AI-platform van de volgende generatie dat baanbrekend onderzoek en innovatie in heel Nederland mogelijk maakt. Klinkt het opzetten van de infrastructuur achter de Europese AI-ambities als een uitdaging die bij je past? Solliciteer dan nu.
Hier ga je werken
SURF is de ict-coöperatie van Nederlandse onderwijs- en onderzoeksinstellingen. Samen met hen werken we aan digitale diensten en complexe innovatievraagstukken om de kwaliteit van onderwijs en onderzoek te verhogen.
- BSc/MSc-niveau in informatica, software engineering of gelijkwaardig
- Ruime ervaring met Kubernetes (operators, Helm, namespaces, RBAC, netwerken)
- Ervaring met containertechnologieën (Docker/Podman, containerregisters, CI/CD)
- Kennis van of ervaring met HPC-schedulers (Slurm) en Linux-systeembeheer
- Ervaring met monitoring en observability (Prometheus, Grafana, ELK/Loki)
- Een Infrastructure-as-Code-mentaliteit (Terraform, Ansible, SaltStack, GitOps)
- Goede beheersing van Python en/of Go; Bash-scripting
- Uitstekende beheersing van het Engels; Nederlands is een pluspunt
Sterke pluspunten
- Ervaring met GPU-scheduling en NVIDIA-tools (CUDA, MIG, MPS, GPU Operator)
- Kennis van model-serving frameworks (Triton, vLLM, TGI, Ray Serve)
- Ervaring met MLOps-platforms (MLflow, Kubeflow, Weights & Biases)
- Kennis van identiteitsfederatie (SRAM, eduGAIN, OIDC, LDAP)
- Ervaring met high-performance opslag (parallelle bestandssystemen, S3/objectopslag)
- Bijdragen aan open source