Data manager pour le Projet ERC InfantSimulator (F/H

EHESS - Ecole des Etudes en Sciences Sociales
Paris, France
1 month ago

Role details

Contract type
Permanent contract
Employment type
Full-time (> 32 hours)
Working hours
Regular working hours
Languages
French, English
Compensation
€ 36K

Job location

Paris, France

Tech stack

Artificial Intelligence
Bash
Computational Linguistics
Python
Machine Learning
NumPy
Systems Development Life Cycle
Signal Processing
Management of Software Versions
Jupyter
GIT
Pandas
Script Language

Job description

Le Data Manager recruté aura pour mission d'utiliser des méthodes IA pour collecter, organiser et traiter des ressources de données audio multilingues issues d'enregistrements centrés sur l'enfant. La mission implique d'identifier et de rassembler différents jeux de données existants provenant de diverses sources et langues, de structurer ces ressources pour les rendre exploitables par l'équipe de recherche, et d'assurer leur qualité et leur documentation. Une fois ces données préparées et intégrées au projet, le travail consistera également à collaborer avec l'équipe technique pour faciliter le développement de systèmes d'analyse automatisés capables d'extraire des informations pertinentes de ces enregistrements.

Requirements

  • Bonne maîtrise de Python et d'un langage de script (ex: bash)
  • Maîtrise des outils de Data Science (Numpy, Pandas, Jupyter, etc...)
  • Familiarité avec les outils de versioning et documentation (Git, etc.)
  • Maitrise des techniques de traitement automatique de la parole.
  • Compétence en traitement de signal et en linguistique computationnel seront un plus.

Compétences organisationnelles :

  • Rigueur dans la documentation et l'archivage des données.
  • Sens de l'organisation et méthodologie de travail structurée
  • Respect des normes éthiques et de confidentialité des données.

Compétences relationnelles :

  • Capacité à collaborer avec des équipes multidisciplinaires.
  • Communication claire avec chercheurs et ingénieurs.
  • Aptitude à identifier et contacter des sources de données externes.
  • Anglais professionnel (écrit et oral)., * Ingénieur.e spécialisé.e en Data Science et en machine learning (jeunes diplômé.e.s acceptés)
  • Expérience en recherche académique ou projets scientifiques
  • Connaissance du domaine linguistique ou de l'acquisition du langage
  • Sensibilité aux enjeux multilingues et interculturels, InfantSimulator investigates the mechanisms enabling young children to learn their native language(s), and do so apparently much more efficiently and robustly than current AI systems. The successful candidate will be integrated into a multidisciplinary team comprising language scientists, developmental psychologists, and machine learning experts., Engineer specialized in Data Science and Machine Learning with the following skills (recent graduates are welcome)

Technical skills:

  • Strong proficiency in Python and a scripting language (e.g., Bash)
  • Experience with Data Science tools (Numpy, Pandas, Jupyter, etc.)
  • Familiarity with version control and documentation tools (Git, etc.)
  • Expertise in automatic speech processing techniques Skills in signal processing and computational linguistics are a plus

Organizational skills

  • Rigorous in documentation and data archiving
  • Structured and methodical work approach
  • Respect for ethical standards and data confidentiality

Interpersonal skills

  • Ability to collaborate with multidisciplinary teams
  • Clear communication with researchers and engineers
  • Ability to identify and contact external data sources
  • Professional level of English (written and spoken)

Additional appreciated skills

  • Experience in academic research or scientific projects
  • Knowledge of linguistics or language acquisition
  • Sensitivity to multilingual and intercultural issues

Applications and requests for information

About the company

The recruited Data Manager will be responsible for using AI methods to collect, organize, and process multilingual audio data resources from child-centered recordings. The role involves identifying and gathering different existing datasets from various sources and languages, structuring these resources to make them usable by the research team, and ensuring their quality and proper documentation. Once these datasets are prepared and integrated into the project, the work will also include collaborating with the technical team to support the development of automated analysis systems capable of extracting relevant information from the recordings.

Apply for this position