Data Engineer - Databricks - Pyspark - Lakehouse H/F

DGTL Performance
yesterday

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
French
Experience level
Senior

Job location

Tech stack

Agile Methodologies
Amazon Web Services (AWS)
Azure
Code Review
Continuous Integration
Data Validation
Data Governance
ETL
Github
Hive
DataOps
SQL Databases
Data Streaming
Google Cloud Platform
Data Ingestion
GIT
Data Lake
PySpark
Data Lineage
Data Analytics
Kafka
Machine Learning Operations
REST
Databricks

Job description

Vous intégrerez une équipe pluridisciplinaire (Data Engineers, Data Analysts, Data Scientists, équipes métier) évoluant dans un environnement Agile, avec des enjeux forts de fiabilité, de performance et de gouvernance des données. La mission couvre à la fois des dimensions d'architecture, de développement de pipelines, d'administration de la plateforme Databricks et de mise en conformité avec les standards de qualité et de sécurité de la donnée. Vous contribuerez activement à la standardisation des pratiques d'ingénierie data, à la documentation des flux et modèles, ainsi qu'à l'accompagnement des utilisateurs dans l'adoption des outils.

Responsabilités :

  • Concevoir et développer des pipelines de données robustes sur Databricks (PySpark, Spark SQL, Delta Live Tables)
  • Mettre en place et faire évoluer des architectures Lakehouse reposant sur Delta Lake
  • Industrialiser les workflows ETL/ELT via Databricks Workflows, en assurant fiabilité, scalabilité et maintenabilité
  • Administrer l'espace de travail Databricks : gestion des workspaces, clusters, permissions et accès utilisateurs
  • Optimiser les coûts de la plateforme grâce à la configuration fine des clusters, à l'autoscaling et au monitoring
  • Implémenter les bonnes pratiques de sécurité et de gouvernance (Unity Catalog, gestion des accès, data lineage)
  • Mettre en oeuvre des mécanismes de qualité et de validation des données (expectations, tests, contrôles de fraîcheur)
  • Documenter les modèles de données et les flux au sein de la plateforme
  • Collaborer étroitement avec les équipes Data Analytics, Data Science et métier pour comprendre et répondre aux besoins fonctionnels
  • Participer aux revues de code, à la définition des standards et au partage des bonnes pratiques au sein de l'équipe
  • Accompagner les utilisateurs dans la montée en compétences et l'adoption de l'environnement Databricks

Requirements

Maîtrise de PySpark et/ou Spark SQL pour le développement de pipelines de données à grande échelle

  • Expérience significative sur la plateforme Databricks : pipelines, clusters, notebooks, Unity Catalog
  • Bonne connaissance des architectures Lakehouse et du format Delta Lake
  • Solides compétences en ETL/ELT, data modeling et ingestion de données (batch et streaming)
  • Connaissance d'au moins un environnement cloud : Azure, AWS ou GCP
  • Maîtrise de Git et des pratiques CI/CD (Azure DevOps, GitHub Actions ou équivalent)
  • Formation Bac +5 en informatique, data ou domaine équivalent
  • Expérience de 2 à 5 ans en data engineering ou sur des missions centrées sur la plateforme Databricks
  • Capacité à travailler en équipe transverse, sens aigu de la documentation et autonomie dans la gestion des tâches

Fortement appréciés :

  • Connaissances en MLflow, orchestration de modèles et pratiques MLOps
  • Notions en DataOps, optimisation des coûts cloud et mise en place de dispositifs de monitoring
  • Expérience en exploitation et intégration d'APIs REST dans des pipelines de données
  • Pratique de l'ingestion de données en temps réel, notamment via Apache Kafka ou des technologies équivalentes
  • Appétence pour la veille technologique et la contribution à l'amélioration continue des pratiques d'ingénierie data, Unity Cluster ETL Google cloud platform SQL Optimisation des coûts AWS Git Création d'une base documentaire Veille technologique Batching Autonomie Gouvernance des données KAFKA Amélioration continue API REST, Monitoring

Benefits & conditions

EducationalOccupationalCredential postgraduate degree EducationalOccupationalCredential bachelor degree

About the company

Dans le cadre d'un projet de transformation data d'envergure au sein d'un grand groupe du secteur de l'énergie, nous recherchons un Data Engineer confirmé pour renforcer une équipe spécialisée dans la modernisation et l'industrialisation de la plateforme de données, articulée autour de Databricks et d'une architecture Lakehouse.

Apply for this position