Architecte Big Data - Spark Performance H/F
Role details
Job location
Tech stack
Job description
Un cadre de travail stimulant avec des projets variés à fort impact
Un accompagnement de proximité et des formations continues
Une culture d'entreprise centrée sur la collaboration, l'innovation et le bien-être
Télétravail partiel possible, paniers repas, mutuelle premium
Envie de rejoindre une entreprise où il fait bon vivre ? Postulez dès maintenant et devenez acteur de votre avenir avec MAESTRIA.
Dans le cadre d'un programme stratégique de transformation Data à très grande échelle, nous recherchons un(e) Architecte Big Data orienté Spark & Performance afin d'accompagner l'évolution et l'optimisation d'une plateforme de traitement de données massives.
Vous interviendrez dans un environnement critique à forte volumétrie, au sein d'un programme Agile à l'échelle regroupant plusieurs centaines de collaborateurs., La plateforme traite chaque mois plusieurs milliards de lignes de données issues de flux massifs et critiques pour l'activité métier.
Les enjeux principaux :
- performance des traitements distribués,
- optimisation des pipelines batch,
- maîtrise des temps d'exécution,
- qualité et exploitabilité opérationnelle des données,
- conservation longue durée des historiques.
L'environnement technique repose sur :
- une plateforme Big Data Hadoop / Cloudera,
- des traitements Spark distribués,
- un écosystème Java / Spring Batch,
- des infrastructures conteneurisées et cloud-native.
La volumétrie et les contraintes de performance imposent une forte maîtrise des problématiques liées :
-
au partitionnement,
-
aux traitements distribués,
-
à la mémoire,
-
aux shuffles,
-
à l'optimisation des transformations Spark., En tant qu'Architecte Big Data, vous serez amené(e) à :
-
Concevoir et faire évoluer les architectures de traitement de données massives
-
Accompagner les équipes sur les problématiques de performance Spark
-
Optimiser les traitements batch distribués à très grande échelle
-
Définir les bonnes pratiques de développement et d'industrialisation Data
-
Participer aux choix d'architecture autour des plateformes Data et des flux événementiels
-
Accompagner les équipes de développement dans l'optimisation des traitements
-
Contribuer aux travaux d'urbanisation et de gouvernance technique
-
Participer aux comités d'architecture et à la définition des standards techniques
-
Superviser la bonne application des pratiques d'architecture et de performance
Environnement technique
Big Data & Data Engineering
- Spark / PySpark
- Hadoop
- Cloudera
- HDFS
- Hive
- Traitements DataFrame
- Traitements batch distribués
Développement & Frameworks
- Python
- Java
- Spring Batch
Orchestration & Industrialisation
- Airflow / Oozie
- CI/CD & industrialisation Data
Streaming & Messaging
- Kafka
- Architectures événementielles, Volumétries rares et problématiques techniques stimulantes
- Programme stratégique à très forte visibilité
- Environnement Big Data mature et industrialisé
- Equipes expertes et culture forte de l'ingénierie
- Sujets mêlant architecture, performance et optimisation à grande échelle, * optimisation des traitements Spark,
- gestion du partitionnement,
- réduction des coûts de shuffle,
- optimisation des joins et windowing,
- persistance/caching des DataFrames,
- tuning mémoire et parallélisation,
- optimisation des DAG Spark
Requirements
Expérience significative en architecture Big Data ou Data PlatformTrès bonne maîtrise de Spark en environnement de production critiqueExpérience sur plateformes Hadoop / ClouderaCapacité à intervenir à la fois sur :l'architecture,la performance,l'industrialisation,l'accompagnement des équipesExpérience dans des environnements Agile à grande échelle appréciée Nous recherchons un profil capable d'intervenir sur des problématiques avancées autour de Spark et des traitements distribués.Une expertise est attendue sur des sujets tels que :optimisation des traitements Spark,gestion du partitionnement,réduction des coûts de shuffle,optimisation des joins et windowing,persistance/caching des DataFrames,tuning mémoire et parallélisation,optimisation des DAG Spark,compréhension du moteur d'exécution Spark.Une bonne maîtrise des problématiques liées aux traitements massifs et aux architectures distribuées est indispensable. Les plusExpérience Kafka / architectures événementiellesParticipation à des comités d'architectureMaîtrise des problématiques d'observabilité et supervision DataConnaissance des outils de modélisation d'architecture (Archimate ou équivalent), * Expérience significative en architecture Big Data ou Data Platform
- Très bonne maîtrise de Spark en environnement de production critique
- Expérience sur plateformes Hadoop / Cloudera
- Capacité à intervenir à la fois sur :
- l'architecture,
- la performance,
- l'industrialisation,
- l'accompagnement des équipes
- Expérience dans des environnements Agile à grande échelle appréciée
Nous recherchons un profil capable d'intervenir sur des problématiques avancées autour de Spark et des traitements distribués.
Une expertise est attendue sur des sujets tels que, * compréhension du moteur d'exécution Spark.
Une bonne maîtrise des problématiques liées aux traitements massifs et aux architectures distribuées est indispensable.
Les plus
- Expérience Kafka / architectures événementielles
- Participation à des comités d'architecture
- Maîtrise des problématiques d'observabilité et supervision Data
- Connaissance des outils de modélisation d'architecture (Archimate ou équivalent)