Data Engineer
Role details
Job location
Tech stack
Job description
- Zorgdragen voor tijdige oplevering van (deel)resultaten volgens de planning.
- Leveren van robuuste en gedocumenteerde pipelines die voldoen aan privacy/AVG-eisen.
- Samenwerken binnen het project door deelname aan wekelijkse overleggen, maandrapportages en het opleveren van een eindrapportage.
Concrete resultaten
- Een datacatalogus van alle relevante databronnen.
- Werkende pipelines voor minimaal twee databronnen (prioriteit bij interne publieksvragen en media).
- Operationeel anonimiseringsscript on-premise.
- Schone, gestructureerde data geschikt voor modelontwikkeling.
- Azure sandbox aangevraagd en basisinfrastructuur ingericht (indien goedgekeurd).
- Opgeleverde technische documentatie (pipelines, schema's, architectuur).
", "Organization": {"Name": null, "Website": null}, "SalaryMin": null, "SalaryMax": null, "ContractType": null, "UserArea": {"jobLocation": {"@type": "Place", "address": {"postalCode": "", "addressCountry": "Nederland", "@type": "PostalAddress", "addressRegion": "Zuid-Holland", "addressLocality": "Den Haag"}, "geo": {"latitude": "52.071336", "longitude": "4.300003", "@type": "GeoCoordinates"}}, "employmentType": ["FULL_TIME"], "industry": "Unknown", "validThrough": "2026-03-11T04:44:03", "datePosted": "2026-02-23T17:23:05", "description": "Voor ICTU zoeken wij een Senior Data Engineer. Je werkt als Senior Data Engineer aan het project SZW Brede Signalering. Je richt je op het opzetten van de technische fundamenten: het ontsluiten van databronnen (zoals interne publieksvragen, social media, media monitoring en publieke documenten), het bouwen van robuuste data pipelines en het zorgen dat data AVG-compliant en bruikbaar is voor signaaldetectie. Je start met on-premise oplossingen en synthetische data voor privacygevoelige verwerking, terwijl tegelijkertijd de Azure-omgeving voor dit project wordt ingericht.
De afdeling Omgevingskennis & Responsiviteit (O&R) verzamelt en duidt signalen en ondersteunt het ministerie van SZW. Het project bevindt zich in de opstartfase. Een bestaand Databricks-platform op Azure is aanwezig, maar vereist nog configuratie en projectspecifieke toegang. Door de vereisten rondom DPIA en CPO-toestemming is een hybride aanpak nodig: on-premise voor privacygevoelige verwerking en parallel de inrichting van de Azure/Databricks-omgeving. Je hebt toegang tot code vanuit een overheidsbreed samenwerkingsverband (zoals anonimiseringsscripts en tekstmining).
Rol en werkzaamheden
- Databronnen ontsluiten en automatiseren, waaronder interne publieksvragen, social media, media monitoring en publieke documenten.
- Bouwen van ETL/ELT-pipelines (cleaning, transformatie, normalisatie) en CI/CD naar productie.
- Implementeren van batchverwerking en opleveren van schone, gestructureerde data voor de Data Scientist.
- Opzetten van een data-catalogus (metadata, lineage, documentatie, eigenaarschap, updates, privacy-overwegingen).
- Borgen van privacy, AVG-compliance en anonimisering (bijvoorbeeld met anonimiseringsscript, on-premise machine, synthetische data, DPIA-ondersteuning).
- Inrichten van infrastructuur: eerst on-premise, parallel daaraan configuratie van Azure/Databricks met DACC; eventueel NSK sandbox instellen.
Beoordeling en oplevering
- Zorgdragen voor tijdige oplevering van (deel)resultaten volgens de planning.
- Leveren van robuuste en gedocumenteerde pipelines die voldoen aan privacy/AVG-eisen.
- Samenwerken binnen het project door deelname aan wekelijkse overleggen, maandrapportages en het opleveren van een eindrapportage.
Concrete resultaten
- Een datacatalogus van alle relevante databronnen.
- Werkende pipelines voor minimaal twee databronnen (prioriteit bij interne publieksvragen en media).
- Operationeel anonimiseringsscript on-premise.
- Schone, gestructureerde data geschikt voor modelontwikkeling.
- Azure sandbox aangevraagd en basisinfrastructuur ingericht (indien goedgekeurd).
- Opgeleverde technische documentatie (pipelines, schema's, architectuur).
Requirements
-
Technisch: ervaring met Python, SQL, ETL/ELT, batch processing, orchestration tools en CI/CD.
-
Kennis van privacy & governance: AVG/GDPR, DPIA, data cataloging, anonimisering/pseudonimisering.
-
Infrastructuur: Azure (Data Factory, Databricks, Data Lake) en on-premise setup en beheer.
-
Soft skills: zelfstandig werken, pragmatisch handelen, documenteren, mentoring en kennisdeling.
-
Je beschikt over een afgeronde HBO- of WO-opleiding, bijvoorbeeld in Informatica, Computer Science of Data Engineering
-
Je hebt minimaal 5-7 jaar aantoonbare ervaring als Data Engineer
-
Je hebt ruime ervaring met ongestructureerde data processing (tekst, PDF, HTML, JSON), API-integratie, data cleaning en normalisatie
-
Je hebt ervaring met ETL/ELT, batch processing en data modeling
-
Je hebt ervaring met data anonimisering/pseudonimisering en bent bekend met AVG/GDPR compliance
-
Je bent in staat om technische complexiteit begrijpelijk te maken en samen te werken met Senior Data Scientist en het DACC team
Functie-wensen
- Je werkt zelfstandig en pragmatisch, van prototype naar PoC, met een 80/20 mindset
- Je hebt sterke documentatievaardigheden
- Het is een pre als je ervaring hebt met mentoring en kennisdeling, bijvoorbeeld het begeleiden van een stagiair
- Je hebt ervaring met Azure (Data Factory, Databricks, Data Lake, of vergelijkbaar)
- Je beheerst Python/PySpark en SQL voor data engineering en automatisering
- Je hebt ervaring met CI/CD pipelines (YAML, GitHub Actions, Azure DevOps, of vergelijkbaar)
- Je bent bekend met performance optimalisatie van data pipelines, gericht op snelheidswinst en kostenreductie
- Je hebt ervaring met privacygevoelige data en het DPIA-proces
- Je hebt ervaring met zowel on-premise als cloud projecten