Senior Data Engineer 27u/w
Role details
Job location
Tech stack
Job description
Als Senior Data Engineer werk je gedurende 3 maanden (met optie tot verlenging tot eind 2026) aan het project SZW Brede Signalering. Het doel is het opzetten van de technische fundamenten: databronnen ontsluiten (interne publieksvragen, social media, media monitoring, publieke documenten), robuuste data pipelines bouwen en zorgen dat data AVG-compliant en bruikbaar is voor signaaldetectie. Je start met on-premise oplossingen en synthetische data voor privacy-gevoelige verwerking, terwijl parallel de Azure-omgeving voor dit project wordt ingericht.
De afdeling Omgevingskennis & Responsiviteit (O&R) verzamelt en duidt signalen en ondersteunt het ministerie van SZW. Het project is in de opstartfase. Er is een bestaand Databricks-platform op Azure, dat nog configuratie en projectspecifieke toegang vereist. Door DPIA en CPO-toestemming is een hybride aanpak nodig: on-premise voor privacy-gevoelige verwerking en parallel inrichting van de Azure/Databricks-omgeving. Er is een overheidsbreed samenwerkingsverband waarvan code (anonimiseringsscript, tekstmining) beschikbaar komt.
Rol en werkzaamheden
-
Databronnen ontsluiten en automatiseren (interne publieksvragen, social media, media monitoring, publieke documenten).
-
ETL/ELT pipelines bouwen (cleaning, transformatie, normalisatie) en CI/CD naar productie.
-
Batchverwerking implementeren en schone, gestructureerde data opleveren voor de Data Scientist.
-
Data-catalogus opzetten (metadata, lineage, documentatie, eigenaarschap, updates, privacy-overwegingen).
-
Privacy, AVG-compliance en anonimisering borgen (anonimiseringsscript, on-premise machine, synthetische data, DPIA-ondersteuning).
-
Infrastructuur opzetten: eerst on-premise, parallel Azure/Databricks configureren met DACC; eventueel NSK sandbox.
Beoordeling en oplevering
-
Tijdige oplevering van (deel)resultaten volgens planning.
-
Kwaliteitseisen: robuuste, gedocumenteerde pipelines conform privacy/AVG.
-
Samenwerking binnen project; wekelijkse overleggen, maandrapportages en eindrapportage.
Concrete resultaten
-
Datacatalogus van alle relevante databronnen.
-
Werkende pipelines voor minimaal 2 databronnen (prioriteit: interne publieksvragen en media).
-
Operationeel anonimiseringsscript on-premise.
-
Schone, gestructureerde data voor modelontwikkeling.
-
Azure sandbox aangevraagd en basis-infra ingericht (indien goedgekeurd).
-
Technische documentatie (pipelines, schema's, architectuur).
Requirements
Afgeronde HBO- of WO-opleiding (bijv. Informatica, Computer Science, Data Engineering). Minimaal 5-7 jaar aantoonbare ervaring als Data Engineer. Ruime ervaring met ongestructureerde data processing (tekst, PDF, HTML, JSON), API-integratie, data cleaning en normalisatie. Ervaring met ETL/ELT, batch processing en data modeling. Ervaring met data anonimisering/pseudonimisering en AVG/GDPR compliance. In staat om technische complexiteit begrijpelijk te maken en samen te werken met Senior Data Scientist en DACC team.
Zelfstandigheid en pragmatisch werken (van prototype naar PoC, 80/20). Sterke documentatievaardigheden. Mentoring en kennisdeling (begeleiding stagiair). Azure ervaring (Data Factory, Databricks, Data Lake, of vergelijkbaar). Python/PySpark + SQL voor data engineering en automation. CI/CD pipelines (YAML, GitHub Actions, Azure DevOps, of vergelijkbaar). Performance optimalisatie van data pipelines (snelheidswinst/cost reduction). Ervaring met privacy-gevoelige data en DPIA proces. Ervaring met on-premise én cloud projecten. Solliciteer nu! Ga naar de bovenkant