Postdoctorat en deep learning et modèles de langage sur ADN pour la bioinformatique (H/F)
Role details
Job location
Tech stack
Job description
Ce projet développe un nouveau paradigme de modèles d'Interprétation Générale du Génome (GenGI) en combinant des modèles de langage ADN (DLLMs) avec des réseaux de neurones profonds afin de prédire des phénotypes humains directement à partir de données de séquençage d'exome complet issues de la UK Biobank. L'objectif est la prédiction à large spectre de phénotypes humains, ouvrant de nouvelles perspectives en génétique clinique, médecine de précision, prédiction du risque de maladie et IA explicable appliquée aux données génomiques.
L'Activité
La personne devra :
- Se familiariser avec les recherches et méthodes existantes en interprétation du génome
- Se familiariser avec les données de séquençage et leur prétraitement
- Étudier le fonctionnement des modèles de langage ADN et développer des solutions pour les intégrer aux architectures de réseaux de neurones du laboratoire
- Développer des solutions pour améliorer la scalabilité des réseaux de neurones et des grands modèles de langage aux données de séquençage du génome entier
- Développer des algorithmes et architectures pour la prédiction de sorties structurées (arbres, graphes)
- Mettre en œuvre des méthodes d'interprétation des prédictions des réseaux de neurones, incluant des activations basées sur des concepts et des analyses contrefactuelles
Requirements
Nous recherchons une personne motivée et curieuse, avec une solide expérience dans le développement de méthodes d'apprentissage automatique pour la bioinformatique. Le projet porte sur le développement de nouvelles architectures de réseaux de neurones pour l'inférence à partir de données de séquençage. La personne devra être désireuse d'apprendre continuellement de nouvelles compétences, méthodes et concepts, et apprécier la recherche de solutions face à des difficultés nouvelles et imprévues. Compétences techniques :
- Programmation Python avancée et expérience en calcul scientifique (PyTorch, scikit-learn, NumPy, etc.)
- Réseaux de neurones et apprentissage automatique : solide compréhension des concepts et des fondements mathématiques, y compris l'algèbre linéaire (opérations vectorielles et matricielles) et l'optimisation
- Familiarité avec GNU/Linux et les environnements de développement associés
- Compétences en traitement de données génomiques (séquençage d'exome ou de génome complet) et pipelines de bioinformatique sont un plus
- Connaissances en GWAS, génétique des populations ou concepts de base en génétique et biologie sont appréciées mais non obligatoires
Compétences générales :
- Capacité de résolution de problèmes complexes
- Bonnes compétences en communication et aptitude au travail en équipe
- Niveau d'anglais minimum B2 requis
Votre Environnement de Travail
La candidate ou le candidat rejoindra la nouvelle équipe de recherche en IA dirigée par Daniele Raimondi au sein de l'Institut de Génétique Moléculaire de Montpellier (IGMM, UMR5535 CNRS/Université de Montpellier) pour une durée de 12 mois, renouvelable sous certaines conditions pour jusqu'à 36 mois supplémentaires si les résultats permettent d'obtenir des financements complémentaires.
Benefits & conditions
A partir de 3071€ brut ajustable selon expérience
Congés et RTT annuels
44 jours
Pratique et Indemnisation du TT
Pratique et indemnisation du TT
Transport
Prise en charge à 75% du coût et forfait mobilité durable jusqu'à 300€