Database ontwikkelaar

Belastingdienst

The Hague, Netherlands

5 days ago

Role details

Contract type

Permanent contract

Employment type

Part-time (≤ 32 hours)

Working hours

Regular working hours

Languages

Dutch

Job location

The Hague, Netherlands

Tech stack

HTML

Microsoft Excel

API

Azure

Databases

Information Engineering

ETL

JSON

Metadata

Unstructured Data

Data Lineage

Databricks

Job description

De Data Engineer is verantwoordelijk voor het opzetten van de data engineering fundamenten voor signaalmanagement.

4 databronnen operationaliseren: interne publieksvragen (handmatige datastroom automatiseren), social media (scraping, API-integratie), media monitoring (Coosto API waarschijnlijk niet ontsluitbaar; eigen media scraper noodzakelijk), publieke documenten (scraping).

Focus op ongestructureerde data: tekst, PDF, HTML, JSON.
Handmatige processen (Excel workflows) vervangen door pipelines.

Data pipelines bouwen

ETL/ELT pipelines voor data cleaning, transformatie en normalisatie.
CI/CD pipelines van ontwikkeling naar productie.
Batch processing implementeren.
Schone, gestructureerde data leveren aan de Data Scientist.

Data-catalogus opzetten

Metadata en data lineage structureren.
Documentatie van databronnen, schemas en pipelines.
Overzicht eigenaarschap, updatefrequentie, privacy-overwegingen.

Privacy, AVG-compliance en anonimisering

Anonimiseringsscript ontwikkelen (in samenwerking met Rotterdam).
On-premise machine opzetten voor lokaal draaien van anonimisering.
Werken met synthetische data voor de ontwikkelfase.
DPIA-kennis en ondersteuning leveren.

Infrastructuur opzetten

Eerste fase: on-premise/lokale setup voor privacy-gevoelige verwerking (anonimisering, synthetische data).
Bestaand Databricks-platform op Azure configureren en inrichten voor projectgebruik (samen met DACC).
NSK sandbox als aanvullende optie indien de bestaande omgeving onvoldoende capaciteit biedt.
Cloudstrategie voor productiedata zodra CPO-toestemming en DPIA gereed zijn.