Post-doctorant·e en machine learning (H/F)
Role details
Job location
Tech stack
Job description
Sujet : Apprentissage par renforcement profond pour résoudre des problèmes d'optimisation boîte noire Les algorithmes à estimation de distribution (EDA) sont une alternative aux méthodes évolutionnaires classiques en optimisation stochastique. Plutôt que de manipuler directement des populations de solutions à l'aide d'opérateurs, ils apprennent une distribution de probabilité visant à modéliser les régions prometteuses de l'espace de recherche, en capturant explicitement les dépendances entre variables. Dans le cadre du projet ANR COMBO, une nouvelle méthode appelée RL-EDA a été proposée pour résoudre des problèmes d'optimisation combinatoire discrète de type boîte noire. Elle repose sur un modèle génératif autorégressif multivarié entraîné par apprentissage par renforcement, avec une propriété clé : l'invariance à l'ordre de génération des variables. Cette invariance est obtenue en échantillonnant des ordres de génération aléatoires durant l'entraînement, ce qui améliore la diversité des solutions générées et permet au modèle de se concentrer sur les dépendances réellement pertinentes. L'apprentissage utilise une adaptation de l'algorithme GRPO, garantissant des mises à jour stables grâce à des avantages relatifs invariants à l'échelle de la fonction objectif. Les résultats expérimentaux montrent que RL-EDA surpasse fréquemment l'état de l'art sur de nombreuses instances de tailles et de natures diverses. L'objectif du projet est d'étendre cette approche aux problèmes boîte noire combinant variables discrètes et continues, afin de disposer d'une méthode performante et générique, notamment pour la calibration d'hyperparamètres de réseaux de neurones. L'outil final sera diffusé en open source. Le projet de postdoctorat est structuré en trois work packages.
- WP1 vise la création de benchmarks originaux pour l'optimisation boîte noire mixte, puis une comparaison des meilleures méthodes existantes.
- WP2 consiste à étendre RL-EDA aux variables continues en adaptant le modèle génératif et l'apprentissage par renforcement, avant une évaluation comparative.
- WP3, plus exploratoire, étudiera de nouveaux processus de génération de solutions invariants à l'ordre, notamment via les GFlowNets ou les modèles de diffusion. Vous pouvez télécharger la fiche de poste complète ici You can download the job description here
Requirements
Le candidat ou la candidate devra être titulaire d'un doctorat de moins de 3 ans. Savoir :
-
Le/la candidat·e doit avoir des bases dans les domaines de l'optimisation et du machine learning.
-
Des connaissances dans les domaines de l'apprentissage par renforcement et de l'optimisation boîte noire seraient un plus. Savoir faire :
-
Le/la candidat·e doit être à l'aise en développement algorithmique avec le langage Python.
-
Une connaissance de la librairie Pytorch pour le développement de réseaux de neurones serait appréciable. Savoir être :
-
Le/la candidat·e doit avoir une capacité à travailler en équipe avec les différents intervenants du projet.
-
ll/elle doit être motivé·e et appliqué·e dans son travail. -- Poste ouvert uniquement aux contractuels Catégorie/corps : Post doctorant·e Diplôme minimum requis : Bac+8
Benefits & conditions
Type de contrat et durée : CDD de 12 mois Rémunération brute mensuelle : entre 2800€ et 2900€ brut Date de prise de poste souhaitée : 01/09/2026 Quotité de travail : 100% Date limite de candidature : 10/05/2026