Database ontwikkelaar

Belastingdienst
The Hague, Netherlands
5 days ago

Role details

Contract type
Permanent contract
Employment type
Part-time (≤ 32 hours)
Working hours
Regular working hours
Languages
Dutch

Job location

The Hague, Netherlands

Tech stack

HTML
Microsoft Excel
API
Azure
Databases
Information Engineering
ETL
JSON
Metadata
Unstructured Data
Data Lineage
Databricks

Job description

De Data Engineer is verantwoordelijk voor het opzetten van de data engineering fundamenten voor signaalmanagement.

4 databronnen operationaliseren: interne publieksvragen (handmatige datastroom automatiseren), social media (scraping, API-integratie), media monitoring (Coosto API waarschijnlijk niet ontsluitbaar; eigen media scraper noodzakelijk), publieke documenten (scraping).

  • Focus op ongestructureerde data: tekst, PDF, HTML, JSON.
  • Handmatige processen (Excel workflows) vervangen door pipelines.
  1. Data pipelines bouwen
  • ETL/ELT pipelines voor data cleaning, transformatie en normalisatie.
  • CI/CD pipelines van ontwikkeling naar productie.
  • Batch processing implementeren.
  • Schone, gestructureerde data leveren aan de Data Scientist.
  1. Data-catalogus opzetten
  • Metadata en data lineage structureren.
  • Documentatie van databronnen, schemas en pipelines.
  • Overzicht eigenaarschap, updatefrequentie, privacy-overwegingen.
  1. Privacy, AVG-compliance en anonimisering
  • Anonimiseringsscript ontwikkelen (in samenwerking met Rotterdam).
  • On-premise machine opzetten voor lokaal draaien van anonimisering.
  • Werken met synthetische data voor de ontwikkelfase.
  • DPIA-kennis en ondersteuning leveren.
  1. Infrastructuur opzetten
  • Eerste fase: on-premise/lokale setup voor privacy-gevoelige verwerking (anonimisering, synthetische data).
  • Bestaand Databricks-platform op Azure configureren en inrichten voor projectgebruik (samen met DACC).
  • NSK sandbox als aanvullende optie indien de bestaande omgeving onvoldoende capaciteit biedt.
  • Cloudstrategie voor productiedata zodra CPO-toestemming en DPIA gereed zijn.

Requirements

Een datacatalogus met overzicht van alle relevante databronnen, inclusief eigenaarschap, updatefrequentie, privacy- en ethische overwegingen.

  • Werkende data pipelines voor minimaal 2 van de 4 databronnen (prioriteit: interne publiek

Apply for this position