Data Engineer - Databricks - Pyspark - Lakehouse H/F

DGTL Performance

yesterday

Role details

Contract type

Permanent contract

Employment type

Full-time (> 32 hours)

Working hours

Regular working hours

Languages

French

Experience level

Senior

Job location

Tech stack

Agile Methodologies

Amazon Web Services (AWS)

Azure

Code Review

Continuous Integration

Data Validation

Data Governance

ETL

Github

Hive

DataOps

SQL Databases

Data Streaming

Google Cloud Platform

Data Ingestion

GIT

Data Lake

PySpark

Data Lineage

Data Analytics

Kafka

Machine Learning Operations

REST

Databricks

Job description

Vous intégrerez une équipe pluridisciplinaire (Data Engineers, Data Analysts, Data Scientists, équipes métier) évoluant dans un environnement Agile, avec des enjeux forts de fiabilité, de performance et de gouvernance des données. La mission couvre à la fois des dimensions d'architecture, de développement de pipelines, d'administration de la plateforme Databricks et de mise en conformité avec les standards de qualité et de sécurité de la donnée. Vous contribuerez activement à la standardisation des pratiques d'ingénierie data, à la documentation des flux et modèles, ainsi qu'à l'accompagnement des utilisateurs dans l'adoption des outils.

Responsabilités :

Concevoir et développer des pipelines de données robustes sur Databricks (PySpark, Spark SQL, Delta Live Tables)
Mettre en place et faire évoluer des architectures Lakehouse reposant sur Delta Lake
Industrialiser les workflows ETL/ELT via Databricks Workflows, en assurant fiabilité, scalabilité et maintenabilité
Administrer l'espace de travail Databricks : gestion des workspaces, clusters, permissions et accès utilisateurs
Optimiser les coûts de la plateforme grâce à la configuration fine des clusters, à l'autoscaling et au monitoring
Implémenter les bonnes pratiques de sécurité et de gouvernance (Unity Catalog, gestion des accès, data lineage)
Mettre en oeuvre des mécanismes de qualité et de validation des données (expectations, tests, contrôles de fraîcheur)
Documenter les modèles de données et les flux au sein de la plateforme
Collaborer étroitement avec les équipes Data Analytics, Data Science et métier pour comprendre et répondre aux besoins fonctionnels
Participer aux revues de code, à la définition des standards et au partage des bonnes pratiques au sein de l'équipe
Accompagner les utilisateurs dans la montée en compétences et l'adoption de l'environnement Databricks

Requirements

Maîtrise de PySpark et/ou Spark SQL pour le développement de pipelines de données à grande échelle

Expérience significative sur la plateforme Databricks : pipelines, clusters, notebooks, Unity Catalog
Bonne connaissance des architectures Lakehouse et du format Delta Lake
Solides compétences en ETL/ELT, data modeling et ingestion de données (batch et streaming)
Connaissance d'au moins un environnement cloud : Azure, AWS ou GCP
Maîtrise de Git et des pratiques CI/CD (Azure DevOps, GitHub Actions ou équivalent)
Formation Bac +5 en informatique, data ou domaine équivalent
Expérience de 2 à 5 ans en data engineering ou sur des missions centrées sur la plateforme Databricks
Capacité à travailler en équipe transverse, sens aigu de la documentation et autonomie dans la gestion des tâches

Fortement appréciés :

Connaissances en MLflow, orchestration de modèles et pratiques MLOps
Notions en DataOps, optimisation des coûts cloud et mise en place de dispositifs de monitoring
Expérience en exploitation et intégration d'APIs REST dans des pipelines de données
Pratique de l'ingestion de données en temps réel, notamment via Apache Kafka ou des technologies équivalentes
Appétence pour la veille technologique et la contribution à l'amélioration continue des pratiques d'ingénierie data, Unity Cluster ETL Google cloud platform SQL Optimisation des coûts AWS Git Création d'une base documentaire Veille technologique Batching Autonomie Gouvernance des données KAFKA Amélioration continue API REST, Monitoring

Benefits & conditions

EducationalOccupationalCredential postgraduate degree EducationalOccupationalCredential bachelor degree

About the company

Dans le cadre d'un projet de transformation data d'envergure au sein d'un grand groupe du secteur de l'énergie, nous recherchons un Data Engineer confirmé pour renforcer une équipe spécialisée dans la modernisation et l'industrialisation de la plateforme de données, articulée autour de Databricks et d'une architecture Lakehouse.

Role details

Job location

Tech stack

Job description

Requirements

Benefits & conditions

About the company

Apply for this position

Good distractions

Moments

Videos View all