Data Engineer / Data Scientist

ONSPARK
Paris, France
2 days ago

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
French
Experience level
Senior

Job location

Remote
Paris, France

Tech stack

Agile Methodologies
Airflow
Big Data
Cloudera Impala
Continuous Integration
Distributed Systems
R
Hadoop
Hadoop Distributed File System
Hive
Python
Machine Learning
Apache Oozie
Power BI
Cloudera
SQL Databases
Tableau
Qliksense
Apache Yarn
Spark
Pandas
PySpark
Plotly

Job description

ResponsabilitésCollecte des données

Développer, industrialiser et maintenir des pipelines d'ingestion de sources de données internes et externes

Participer à la préparation et au suivi de la qualité des données

Identifier des opportunités d'utilisation de nouvelles données

Expertise & accompagnement métier

Accompagner les chargés d'études dans leur utilisation de la plateforme de données (POC/POV, support, expertise, formation)

Contribuer et maintenir en condition opérationnelle les cas d'usage sur la plateforme (simulateurs, prévisions, indicateurs, data science, IA)

Valoriser et exposer les résultats via des outils de visualisation ou de micro-services

Sécuriser & MCO

Comprendre les contraintes des équipes supports (sécurité, infrastructure, RGPD)

Contribuer aux bonnes pratiques de développement, standardisation des livrables, amélioration continue

Requirements

Profil recherchéFormation Bac+5 (École d'ingénieur ou Master Big Data / Data Science)

Minimum 5 ans d'expérience dans les activités d'ingénierie data

Maîtrise de l'écosystème Hadoop : HDFS, Yarn, Oozie, Airflow, Spark, Hive, Impala

Distribution Cloudera CDP on-premise

Maîtrise du calcul distribué Spark on Yarn

Langages : Python (Pandas, Plotly), PySpark, R, SQL/HQL

Compétences en Machine Learning & Deep Learning

Connaissance d'au moins un outil de datavisualisation (QlikSense, Tableau, Power BI?)

Connaissance des principes de gouvernance de la donnée (dictionnaire, qualité, RGPD)

Connaissance des principes Agile / Cycle V

Bonnes pratiques CI/CD et versionning

La connaissance du secteur public et de la protection sociale est un plus

Excellentes qualités relationnelles, communicationnelles et rédactionnelles

Benefits & conditions

ConditionsPrésence physique requise à Paris 12ème (télétravail possible jusqu'à 2 jours/semaine)

Mission longue durée avec possibilité d'intégration en CDI

Collaboration avec les équipes internes et autres prestataires You must create an Indeed account before continuing to the company website to apply

About the company

ContexteOnSpark est un cabinet spécialisé dans la GMAO/EAM et l'intégration SI, en forte croissance (40 collaborateurs, CA 3,3 M?). Dans le cadre de la diversification de son offre vers la Data et l'Intelligence Artificielle, nous recherchons un Data Engineer / Data Scientist pour accompagner nos clients grands comptes. Vous interviendrez au sein d'un Pôle Data mature, exploitant une plateforme Big Data on-premise (Cloudera Data Platform Private Cloud) et un environnement de Data Science (Cloudera Machine Learning). Vos missions s'articulent autour de l'ingestion de données massives issues de multiples partenaires institutionnels, de l'accompagnement des équipes métier et de la mise en ?uvre de cas d'usage data avancés (data science, IA, machine learning, NLP, dataviz).

Apply for this position