Data Engineer

Ictu
The Hague, Netherlands
2 days ago

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
Dutch
Experience level
Senior

Job location

Remote
The Hague, Netherlands

Tech stack

HTML
API
Azure
Databases
Continuous Integration
Information Engineering
ETL
Github
JSON
Python
SQL Databases
Unstructured Data
YAML
Data Lake
PySpark
Information Technology
Databricks

Job description

  • Zorgdragen voor tijdige oplevering van (deel)resultaten volgens de planning.
  • Leveren van robuuste en gedocumenteerde pipelines die voldoen aan privacy/AVG-eisen.
  • Samenwerken binnen het project door deelname aan wekelijkse overleggen, maandrapportages en het opleveren van een eindrapportage.

Concrete resultaten

  • Een datacatalogus van alle relevante databronnen.
  • Werkende pipelines voor minimaal twee databronnen (prioriteit bij interne publieksvragen en media).
  • Operationeel anonimiseringsscript on-premise.
  • Schone, gestructureerde data geschikt voor modelontwikkeling.
  • Azure sandbox aangevraagd en basisinfrastructuur ingericht (indien goedgekeurd).
  • Opgeleverde technische documentatie (pipelines, schema's, architectuur).

", "Organization": {"Name": null, "Website": null}, "SalaryMin": null, "SalaryMax": null, "ContractType": null, "UserArea": {"jobLocation": {"@type": "Place", "address": {"postalCode": "", "addressCountry": "Nederland", "@type": "PostalAddress", "addressRegion": "Zuid-Holland", "addressLocality": "Den Haag"}, "geo": {"latitude": "52.071336", "longitude": "4.300003", "@type": "GeoCoordinates"}}, "employmentType": ["FULL_TIME"], "industry": "Unknown", "validThrough": "2026-03-11T04:44:03", "datePosted": "2026-02-23T17:23:05", "description": "Voor ICTU zoeken wij een Senior Data Engineer. Je werkt als Senior Data Engineer aan het project SZW Brede Signalering. Je richt je op het opzetten van de technische fundamenten: het ontsluiten van databronnen (zoals interne publieksvragen, social media, media monitoring en publieke documenten), het bouwen van robuuste data pipelines en het zorgen dat data AVG-compliant en bruikbaar is voor signaaldetectie. Je start met on-premise oplossingen en synthetische data voor privacygevoelige verwerking, terwijl tegelijkertijd de Azure-omgeving voor dit project wordt ingericht.

De afdeling Omgevingskennis & Responsiviteit (O&R) verzamelt en duidt signalen en ondersteunt het ministerie van SZW. Het project bevindt zich in de opstartfase. Een bestaand Databricks-platform op Azure is aanwezig, maar vereist nog configuratie en projectspecifieke toegang. Door de vereisten rondom DPIA en CPO-toestemming is een hybride aanpak nodig: on-premise voor privacygevoelige verwerking en parallel de inrichting van de Azure/Databricks-omgeving. Je hebt toegang tot code vanuit een overheidsbreed samenwerkingsverband (zoals anonimiseringsscripts en tekstmining).

Rol en werkzaamheden

  • Databronnen ontsluiten en automatiseren, waaronder interne publieksvragen, social media, media monitoring en publieke documenten.
  • Bouwen van ETL/ELT-pipelines (cleaning, transformatie, normalisatie) en CI/CD naar productie.
  • Implementeren van batchverwerking en opleveren van schone, gestructureerde data voor de Data Scientist.
  • Opzetten van een data-catalogus (metadata, lineage, documentatie, eigenaarschap, updates, privacy-overwegingen).
  • Borgen van privacy, AVG-compliance en anonimisering (bijvoorbeeld met anonimiseringsscript, on-premise machine, synthetische data, DPIA-ondersteuning).
  • Inrichten van infrastructuur: eerst on-premise, parallel daaraan configuratie van Azure/Databricks met DACC; eventueel NSK sandbox instellen.

Beoordeling en oplevering

  • Zorgdragen voor tijdige oplevering van (deel)resultaten volgens de planning.
  • Leveren van robuuste en gedocumenteerde pipelines die voldoen aan privacy/AVG-eisen.
  • Samenwerken binnen het project door deelname aan wekelijkse overleggen, maandrapportages en het opleveren van een eindrapportage.

Concrete resultaten

  • Een datacatalogus van alle relevante databronnen.
  • Werkende pipelines voor minimaal twee databronnen (prioriteit bij interne publieksvragen en media).
  • Operationeel anonimiseringsscript on-premise.
  • Schone, gestructureerde data geschikt voor modelontwikkeling.
  • Azure sandbox aangevraagd en basisinfrastructuur ingericht (indien goedgekeurd).
  • Opgeleverde technische documentatie (pipelines, schema's, architectuur).

Requirements

  • Technisch: ervaring met Python, SQL, ETL/ELT, batch processing, orchestration tools en CI/CD.

  • Kennis van privacy & governance: AVG/GDPR, DPIA, data cataloging, anonimisering/pseudonimisering.

  • Infrastructuur: Azure (Data Factory, Databricks, Data Lake) en on-premise setup en beheer.

  • Soft skills: zelfstandig werken, pragmatisch handelen, documenteren, mentoring en kennisdeling.

  • Je beschikt over een afgeronde HBO- of WO-opleiding, bijvoorbeeld in Informatica, Computer Science of Data Engineering

  • Je hebt minimaal 5-7 jaar aantoonbare ervaring als Data Engineer

  • Je hebt ruime ervaring met ongestructureerde data processing (tekst, PDF, HTML, JSON), API-integratie, data cleaning en normalisatie

  • Je hebt ervaring met ETL/ELT, batch processing en data modeling

  • Je hebt ervaring met data anonimisering/pseudonimisering en bent bekend met AVG/GDPR compliance

  • Je bent in staat om technische complexiteit begrijpelijk te maken en samen te werken met Senior Data Scientist en het DACC team

Functie-wensen

  • Je werkt zelfstandig en pragmatisch, van prototype naar PoC, met een 80/20 mindset
  • Je hebt sterke documentatievaardigheden
  • Het is een pre als je ervaring hebt met mentoring en kennisdeling, bijvoorbeeld het begeleiden van een stagiair
  • Je hebt ervaring met Azure (Data Factory, Databricks, Data Lake, of vergelijkbaar)
  • Je beheerst Python/PySpark en SQL voor data engineering en automatisering
  • Je hebt ervaring met CI/CD pipelines (YAML, GitHub Actions, Azure DevOps, of vergelijkbaar)
  • Je bent bekend met performance optimalisatie van data pipelines, gericht op snelheidswinst en kostenreductie
  • Je hebt ervaring met privacygevoelige data en het DPIA-proces
  • Je hebt ervaring met zowel on-premise als cloud projecten

About the company

{"externalid": null, "JobTitle": "Senior Data Engineer", "Location": null, "Country": null, "VacancyDocument": "Voor ICTU zoeken wij een Senior Data Engineer. Je werkt als Senior Data Engineer aan het project SZW Brede Signalering. Je richt je op het opzetten van de technische fundamenten: het ontsluiten van databronnen (zoals interne publieksvragen, social media, media monitoring en publieke documenten), het bouwen van robuuste data pipelines en het zorgen dat data AVG-compliant en bruikbaar is voor signaaldetectie. Je start met on-premise oplossingen en synthetische data voor privacygevoelige verwerking, terwijl tegelijkertijd de Azure-omgeving voor dit project wordt ingericht. De afdeling Omgevingskennis & Responsiviteit (O&R) verzamelt en duidt signalen en ondersteunt het ministerie van SZW. Het project bevindt zich in de opstartfase. Een bestaand Databricks-platform op Azure is aanwezig, maar vereist nog configuratie en projectspecifieke toegang. Door de vereisten rondom DPIA en CPO-toestemming is een hybride aanpak nodig: on-premise voor privacygevoelige verwerking en parallel de inrichting van de Azure/Databricks-omgeving. Je hebt toegang tot code vanuit een overheidsbreed samenwerkingsverband (zoals anonimiseringsscripts en tekstmining). Rol en werkzaamheden * Databronnen ontsluiten en automatiseren, waaronder interne publieksvragen, social media, media monitoring en publieke documenten. * Bouwen van ETL/ELT-pipelines (cleaning, transformatie, normalisatie) en CI/CD naar productie. * Implementeren van batchverwerking en opleveren van schone, gestructureerde data voor de Data Scientist. * Opzetten van een data-catalogus (metadata, lineage, documentatie, eigenaarschap, updates, privacy-overwegingen). * Borgen van privacy, AVG-compliance en anonimisering (bijvoorbeeld met anonimiseringsscript, on-premise machine, synthetische data, DPIA-ondersteuning). * Inrichten van infrastructuur: eerst on-premise, parallel daaraan configuratie van Azure/Databricks met DACC; eventueel NSK sandbox instellen. Je werkt voor ICTU binnen het project SZW Brede Signalering, met betrokkenheid van de afdeling Omgevingskennis & Responsiviteit (O&R) van het Ministerie van SZW. Je draagt bij aan het effectief duiden van signalen uit de samenleving en vertaalt deze naar beleid, communicatie en wetgeving met behulp van data-analyse en AI binnen een verantwoorde data-omgeving.

Apply for this position