Data Engineer

Ictu

The Hague, Netherlands

2 days ago

Role details

Contract type

Permanent contract

Employment type

Full-time (> 32 hours)

Working hours

Regular working hours

Languages

Dutch

Experience level

Senior

Job location

Remote

The Hague, Netherlands

Tech stack

HTML

API

Azure

Databases

Continuous Integration

Information Engineering

ETL

Github

JSON

Python

SQL Databases

Unstructured Data

YAML

Data Lake

PySpark

Information Technology

Databricks

Job description

Zorgdragen voor tijdige oplevering van (deel)resultaten volgens de planning.
Leveren van robuuste en gedocumenteerde pipelines die voldoen aan privacy/AVG-eisen.
Samenwerken binnen het project door deelname aan wekelijkse overleggen, maandrapportages en het opleveren van een eindrapportage.

Concrete resultaten

Een datacatalogus van alle relevante databronnen.
Werkende pipelines voor minimaal twee databronnen (prioriteit bij interne publieksvragen en media).
Operationeel anonimiseringsscript on-premise.
Schone, gestructureerde data geschikt voor modelontwikkeling.
Azure sandbox aangevraagd en basisinfrastructuur ingericht (indien goedgekeurd).
Opgeleverde technische documentatie (pipelines, schema's, architectuur).

", "Organization": {"Name": null, "Website": null}, "SalaryMin": null, "SalaryMax": null, "ContractType": null, "UserArea": {"jobLocation": {"@type": "Place", "address": {"postalCode": "", "addressCountry": "Nederland", "@type": "PostalAddress", "addressRegion": "Zuid-Holland", "addressLocality": "Den Haag"}, "geo": {"latitude": "52.071336", "longitude": "4.300003", "@type": "GeoCoordinates"}}, "employmentType": ["FULL_TIME"], "industry": "Unknown", "validThrough": "2026-03-11T04:44:03", "datePosted": "2026-02-23T17:23:05", "description": "Voor ICTU zoeken wij een Senior Data Engineer. Je werkt als Senior Data Engineer aan het project SZW Brede Signalering. Je richt je op het opzetten van de technische fundamenten: het ontsluiten van databronnen (zoals interne publieksvragen, social media, media monitoring en publieke documenten), het bouwen van robuuste data pipelines en het zorgen dat data AVG-compliant en bruikbaar is voor signaaldetectie. Je start met on-premise oplossingen en synthetische data voor privacygevoelige verwerking, terwijl tegelijkertijd de Azure-omgeving voor dit project wordt ingericht.

De afdeling Omgevingskennis & Responsiviteit (O&R) verzamelt en duidt signalen en ondersteunt het ministerie van SZW. Het project bevindt zich in de opstartfase. Een bestaand Databricks-platform op Azure is aanwezig, maar vereist nog configuratie en projectspecifieke toegang. Door de vereisten rondom DPIA en CPO-toestemming is een hybride aanpak nodig: on-premise voor privacygevoelige verwerking en parallel de inrichting van de Azure/Databricks-omgeving. Je hebt toegang tot code vanuit een overheidsbreed samenwerkingsverband (zoals anonimiseringsscripts en tekstmining).

Rol en werkzaamheden

Databronnen ontsluiten en automatiseren, waaronder interne publieksvragen, social media, media monitoring en publieke documenten.
Bouwen van ETL/ELT-pipelines (cleaning, transformatie, normalisatie) en CI/CD naar productie.
Implementeren van batchverwerking en opleveren van schone, gestructureerde data voor de Data Scientist.
Opzetten van een data-catalogus (metadata, lineage, documentatie, eigenaarschap, updates, privacy-overwegingen).
Borgen van privacy, AVG-compliance en anonimisering (bijvoorbeeld met anonimiseringsscript, on-premise machine, synthetische data, DPIA-ondersteuning).
Inrichten van infrastructuur: eerst on-premise, parallel daaraan configuratie van Azure/Databricks met DACC; eventueel NSK sandbox instellen.

Beoordeling en oplevering

Zorgdragen voor tijdige oplevering van (deel)resultaten volgens de planning.
Leveren van robuuste en gedocumenteerde pipelines die voldoen aan privacy/AVG-eisen.
Samenwerken binnen het project door deelname aan wekelijkse overleggen, maandrapportages en het opleveren van een eindrapportage.

Concrete resultaten

Een datacatalogus van alle relevante databronnen.
Werkende pipelines voor minimaal twee databronnen (prioriteit bij interne publieksvragen en media).
Operationeel anonimiseringsscript on-premise.
Schone, gestructureerde data geschikt voor modelontwikkeling.
Azure sandbox aangevraagd en basisinfrastructuur ingericht (indien goedgekeurd).
Opgeleverde technische documentatie (pipelines, schema's, architectuur).

Requirements

Technisch: ervaring met Python, SQL, ETL/ELT, batch processing, orchestration tools en CI/CD.
Kennis van privacy & governance: AVG/GDPR, DPIA, data cataloging, anonimisering/pseudonimisering.
Infrastructuur: Azure (Data Factory, Databricks, Data Lake) en on-premise setup en beheer.
Soft skills: zelfstandig werken, pragmatisch handelen, documenteren, mentoring en kennisdeling.
Je beschikt over een afgeronde HBO- of WO-opleiding, bijvoorbeeld in Informatica, Computer Science of Data Engineering
Je hebt minimaal 5-7 jaar aantoonbare ervaring als Data Engineer
Je hebt ruime ervaring met ongestructureerde data processing (tekst, PDF, HTML, JSON), API-integratie, data cleaning en normalisatie
Je hebt ervaring met ETL/ELT, batch processing en data modeling
Je hebt ervaring met data anonimisering/pseudonimisering en bent bekend met AVG/GDPR compliance
Je bent in staat om technische complexiteit begrijpelijk te maken en samen te werken met Senior Data Scientist en het DACC team

Functie-wensen

Je werkt zelfstandig en pragmatisch, van prototype naar PoC, met een 80/20 mindset
Je hebt sterke documentatievaardigheden
Het is een pre als je ervaring hebt met mentoring en kennisdeling, bijvoorbeeld het begeleiden van een stagiair
Je hebt ervaring met Azure (Data Factory, Databricks, Data Lake, of vergelijkbaar)
Je beheerst Python/PySpark en SQL voor data engineering en automatisering
Je hebt ervaring met CI/CD pipelines (YAML, GitHub Actions, Azure DevOps, of vergelijkbaar)
Je bent bekend met performance optimalisatie van data pipelines, gericht op snelheidswinst en kostenreductie
Je hebt ervaring met privacygevoelige data en het DPIA-proces
Je hebt ervaring met zowel on-premise als cloud projecten

About the company

{"externalid": null, "JobTitle": "Senior Data Engineer", "Location": null, "Country": null, "VacancyDocument": "Voor ICTU zoeken wij een Senior Data Engineer. Je werkt als Senior Data Engineer aan het project SZW Brede Signalering. Je richt je op het opzetten van de technische fundamenten: het ontsluiten van databronnen (zoals interne publieksvragen, social media, media monitoring en publieke documenten), het bouwen van robuuste data pipelines en het zorgen dat data AVG-compliant en bruikbaar is voor signaaldetectie. Je start met on-premise oplossingen en synthetische data voor privacygevoelige verwerking, terwijl tegelijkertijd de Azure-omgeving voor dit project wordt ingericht. De afdeling Omgevingskennis & Responsiviteit (O&R) verzamelt en duidt signalen en ondersteunt het ministerie van SZW. Het project bevindt zich in de opstartfase. Een bestaand Databricks-platform op Azure is aanwezig, maar vereist nog configuratie en projectspecifieke toegang. Door de vereisten rondom DPIA en CPO-toestemming is een hybride aanpak nodig: on-premise voor privacygevoelige verwerking en parallel de inrichting van de Azure/Databricks-omgeving. Je hebt toegang tot code vanuit een overheidsbreed samenwerkingsverband (zoals anonimiseringsscripts en tekstmining). Rol en werkzaamheden * Databronnen ontsluiten en automatiseren, waaronder interne publieksvragen, social media, media monitoring en publieke documenten. * Bouwen van ETL/ELT-pipelines (cleaning, transformatie, normalisatie) en CI/CD naar productie. * Implementeren van batchverwerking en opleveren van schone, gestructureerde data voor de Data Scientist. * Opzetten van een data-catalogus (metadata, lineage, documentatie, eigenaarschap, updates, privacy-overwegingen). * Borgen van privacy, AVG-compliance en anonimisering (bijvoorbeeld met anonimiseringsscript, on-premise machine, synthetische data, DPIA-ondersteuning). * Inrichten van infrastructuur: eerst on-premise, parallel daaraan configuratie van Azure/Databricks met DACC; eventueel NSK sandbox instellen. Je werkt voor ICTU binnen het project SZW Brede Signalering, met betrokkenheid van de afdeling Omgevingskennis & Responsiviteit (O&R) van het Ministerie van SZW. Je draagt bij aan het effectief duiden van signalen uit de samenleving en vertaalt deze naar beleid, communicatie en wetgeving met behulp van data-analyse en AI binnen een verantwoorde data-omgeving.