Data Engineer

Cegedim
Canton of Boulogne-Billancourt-1, France
18 days ago

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
French

Job location

Remote
Canton of Boulogne-Billancourt-1, France

Tech stack

Java
Amazon Web Services (AWS)
R
Python
Scala
Spark
PySpark
Kubernetes

Job description

Mission

Clinityx est un bureau d'étudesfaisant partie du groupe Cegedim, qui réalise des études épidémiologiques àpartir de données de santé issues de registres ou du Système National deDonnées de Santé (SNDS), pour le compte des laboratoires pharmaceutiques ou dessociétés savantes.

Clinityx a développé une expertise forte sur lagestion des données du SNDS. Nous disposons aujourd'hui d'un entrepôt dedonnées de santé unique en son genre, comportant une volumétrie importante, del'ordre de 30 To. Nous cherchons aujourd'hui à renforcer l'équipe sur lescapacités de traitement de cette forte volumétrie.

Nous travaillons dans un environnement cloud HDS(hébergeur de données de santé), sur des cluster Kubernetes. La stacktechnologique repose principalement sur l'utilisation de clusters Spark (Scala)pour l'analyse distribuée des données, avec du stockage objet de type S3.

Mission :

Les data engineers fournissent un travailcrucial chez Clinityx, en étroite collaboration avec les d'une part, et avec les épidémiologistes d'autre part. Ces interactions sontindispensables à la définition des besoins des équipes en vue de construire lesoutils utilisés en interne.

Lapersonne nous rejoignant pour le poste de Data engineer :

  • Participera à la conception et à l'implémentation de pipelines de données, en vue de la préparation d'un structuré pour les data scientists

  • Assurera le développement, l'intégration, la qualité et la disponibilité de ces pipelines

  • Participera aux développements d'outils fortement réutilisables afin d'automatiser et industrialiser la production d'analyses clés

  • Travaillera en étroite collaboration avec les équipes de data science et d'épidémiologie pour comprendre et répondre à leurs besoins en matière de données. Bénéfices :

  • Télé-travail hybride : 2 joursde TT / 2 jours sur site (Boulogne)

  • 13 jours de RTT et 25 jours decongés annuels

  • Mutuelle groupe très avantageuse

  • Avantages du CSE (billetterie,chèques vacances...)

  • Carte tickets restaurant

  • Participation. Profile

  • Ingénieur intéressé par les données à forte volumétrie

  • Bonne connaissance du framework Spark et du langage Scala (ou Java, ou Python/PySpark)

  • La connaissance des environnements de données de santé est un plus Skills Spark Spark, Scala, Python, Java, R

Requirements

Production, Science, Python, Site

Benefits & conditions

Bénéfices :

  • Télé-travail hybride : 2 joursde TT / 2 jours sur site (Boulogne)
  • 13 jours de RTT et 25 jours decongés annuels
  • Mutuelle groupe très avantageuse
  • Avantages du CSE (billetterie,chèques vacances...)
  • Carte tickets restaurant
  • Participation.

About the company

Clinityx est un bureau d'étudesfaisant partie du groupe Cegedim, qui réalise des études épidémiologiques àpartir de données de santé issues de registres ou du Système National deDonnées de Santé (SNDS), pour le compte des laboratoires pharmaceutiques ou dessociétés savantes. Clinityx a développé une expertise forte sur lagestion des données du SNDS. Nous disposons aujourd'hui d'un entrepôt dedonnées de santé unique en son genre, comportant une volumétrie importante, del'ordre de 30 To. Nous cherchons aujourd'hui à renforcer l'équipe sur lescapacités de traitement de cette forte volumétrie. Nous travaillons dans un environnement cloud HDS(hébergeur de données de santé), sur des cluster Kubernetes. La stacktechnologique repose principalement sur l'utilisation de clusters Spark (Scala)pour l'analyse distribuée des données, avec du stockage objet de type S3.

Apply for this position