Lead Data Engineering / Architecte Data (H/F)
ECO-HUB
Canton of Boulogne-Billancourt-1, France
3 days ago
Role details
Contract type
Permanent contract Employment type
Full-time (> 32 hours) Working hours
Regular working hours Languages
French Experience level
SeniorJob location
Canton of Boulogne-Billancourt-1, France
Tech stack
Airflow
Azure
Cloud Computing
ETL
HBase
Hive
Java Database Connectivity
Python
NoSQL
Open Database Connectivity
Prometheus
Azure
SQL Databases
Parquet
Grafana
Spark
Data Lake
PySpark
Gitlab-ci
Kubernetes
Cassandra
Presto
Terraform
Docker
Job description
Nous recherchons un(e) Lead Data Engineering / Architecte Data pour piloter la modernisation de notre infrastructure data et la transformation vers une architecture data lakehouse.
Mission principale Pilier technique de notre plateforme de données, vous dirigerez la migration de notre infrastructure NoSQL vers une architecture data lakehouse avec découplage stockage/calcul, tout en optimisant nos pipelines de traitement massif et en garantissant la scalabilité.
Responsabilités
- Définir et piloter l'architecture data de la plateforme
- Diriger la migration NoSQL vers data lakehouse (stockage/calcul découplé)
- Concevoir et optimiser les pipelines ETL/ELT à grande échelle
- Encadrer l'équipe data engineering et garantir la qualité
- Optimiser les jobs Spark pour données IoT massives
- Implémenter l'observabilité et les SLAs de qualité des données
- Optimiser les coûts de stockage et calcul sur Azure
Stack Technique
- Data Lakehouse: Parquet/ORC, Azure Data Lake Gen2, solutions de catalogage
- Processing: Apache Spark (Scala/Python), PySpark
- Query Engines: Trino/Presto, JDBC/ODBC Gateways, Spark SQL
- Orchestration: Airflow, GitLab CI, Kubernetes/AKS
- Cloud: Azure, Terraform, Docker
- Monitoring: OpenTelemetry, Prometheus/Grafana, Azure Monitor
Requirements
Expertise Apache Spark (Scala ou Python)
- Expérience architectures data lakehouse (Iceberg, Delta Lake, Hudi)
- Connaissance bases NoSQL distribuées (Cassandra, ScyllaDB, HBase)
- Maîtrise formats columnaires (Parquet, ORC) et stockage
- Conception pipelines ETL/ELT à grande échelle
- Python, Cloud Azure, moteurs SQL distribués
Fortement appréciées
- Migrations NoSQL vers data lakehouse
- Séries temporelles et données IoT
- Orchestration (Airflow, Prefect), Scala, Terraform
- Optimisation coûts cloud, data quality
Soft Skills
- Leadership technique et capacité à fédérer
- Communication et pédagogie
- Autonomie, rigueur, pragmatisme