Criblage à haut débit et apprentissage des interactions ARN-protéine // High-Throughput Screening and Learning of RNA--Protein Interactions

Institut Polytechnique de Paris

Canton de Palaiseau, France

15 days ago

Role details

Contract type

Apprenticeship

Employment type

Full-time (> 32 hours)

Working hours

Regular working hours

Languages

French

Job location

Canton de Palaiseau, France

Tech stack

Artificial Intelligence

Databases

Job description

Criblage à haut débit et apprentissage des interactions ARN-protéine // High-Throughput Screening and Learning of RNA-Protein Interactions Mots clés ARN, sequençage, criblage haut-débit, apprentissage automatique, condensats biologiques RNA, sequencing, high-throughput screening, machine learning, biological condensates, Les interactions ARN-protéine sont au cœur de la biologie moderne, de la traduction et de la maturation des ARN à la réplication virale et aux condensats biomoléculaires. Pourtant, les modèles prédictifs de liaison ARN-protéine restent limités, et les approches actuelles d'IA sont encore peu performantes pour les complexes impliquant l'ARN, en raison du faible nombre de structures disponibles et de biais importants dans les bases de données. En s'appuyant sur notre cadre de design génératif d'ARN (Lambert et al., Nature Communications, 2025), cette thèse vise à mettre en place une plateforme expérimentale à haut débit pour apprendre les règles quantitatives d'interaction entre des bibliothèques d'ARN et des motifs protéiques ou peptidiques. La stratégie suivra un cycle itératif de type design-test-learn, dans lequel de grandes bibliothèques d'ARN seront synthétisées, testées pour leur capacité de liaison, séquencées, puis utilisées pour entraîner des modèles hybrides combinant physique et apprentissage automatique.

Objectifs de recherche L'étudiant ou l'étudiante développera des essais fondés sur le séquençage afin de caractériser les interactions entre des bibliothèques diversifiées d'ARN, comprenant jusqu'à ~10^4-10^5 variants par lot, et des motifs protéiques ou peptidiques sélectionnés. Le projet visera à quantifier des paysages d'affinité, à identifier les déterminants structuraux de la liaison à l'aide de méthodes de sondage structural, et à explorer comment la diversité de séquence module les interactions fonctionnelles. Une attention particulière sera portée aux motifs minimaux de liaison et aux interactions multivalentes. Les jeux de données produits serviront à entraîner des modèles prédictifs et génératifs de reconnaissance ARN-protéine. Les règles d'interaction apprises seront ensuite exploitées pour concevoir des condensats ARN-protéine possédant des propriétés souhaitées.

Applications Trois grands domaines d'application sont visés. D'abord, des interactions ARN-protéine programmables pourraient permettre d'organiser des nano-objets et des systèmes de délivrance, notamment des cargos d'ARN et des nanoparticules lipidiques, au moyen d'échafaudages d'ARN modulaires recrutant des composants protéiques définis. Ensuite, l'identification de règles minimales d'interaction ARN-peptide pourrait éclairer des scénarios liés à l'origine de la vie, dans lesquels de courts peptides et des ribozymes auraient pu coévoluer vers des systèmes primitifs de traduction. Enfin, des cartes quantitatives génotype-phénotype de la liaison ARN-protéine en environnement encombré pourraient améliorer notre compréhension des protéines cellulaires liant l'ARN et des condensats biomoléculaires, pour lesquels les prédicteurs actuels fondés sur la structure restent insuffisants.

Project Overview RNA-protein interactions are central to modern biology, from translation and RNA processing to viral replication and biomolecular condensates. Yet predictive models of RNA-protein binding remain limited, and current AI approaches perform poorly for RNA complexes because of scarce structural data and strong database biases. Building on our generative RNA design framework (Lambert et al., Nature Communications, 2025), this PhD project aims to establish a high-throughput experimental platform to learn quantitative interaction rules between RNA libraries and protein or peptide motifs. The strategy will follow an iterative design-test-learn cycle in which large RNA libraries are synthesized, screened for binding, sequenced, and used to train hybrid physical-machine-learning models.

Research Objectives The student will develop sequencing-based assays to characterize interactions between diversified RNA libraries, with up to ~10^4-10^5 variants per batch, and selected protein or peptide motifs. The project will quantify affinity landscapes, identify structural determinants of binding using structure-probing approaches, and explore how sequence diversity shapes functional interactions. Particular emphasis will be placed on minimal binding motifs and multivalent interactions. The resulting datasets will be used to train predictive and generative models of RNA-protein recognition. These learned interaction rules will then be leveraged to design RNA-protein condensates with desired properties.

Applications Three main application domains are targeted. First, programmable RNA-protein interactions could be used to organize nano-objects and delivery systems, including RNA cargos and lipid nanoparticles, through modular RNA scaffolds that recruit defined protein components. Second, identifying minimal RNA-peptide interaction rules could inform origin-of-life scenarios, in which short peptides and ribozymes may have co-evolved toward primitive translation systems. Third, quantitative genotype-phenotype maps for RNA-protein binding in crowded environments could improve our understanding of cellular RNA-binding proteins and biomolecular condensates, where current structure-based predictors remain insufficient.

Requirements

Criblage à haut débit et apprentissage des interactions ARN-protéine // High-Throughput Screening and Learning of RNA-Protein Interactions, Une solide formation en biologie moléculaire ou en biochimie de l'ARN est requise. Une expérience en transcription in vitro, clonage et préparation de bibliothèques pour le séquençage NGS constitue un atout. Un intérêt marqué pour l'analyse quantitative et pour une interaction étroite avec des équipes de modélisation est indispensable. A strong background in molecular biology or RNA biochemistry is required. Experience with in vitro transcription, cloning, NGS library preparation is a plus. Interest in quantitative analysis and close interaction with modelling teams is essential. Requested elements for the application: * Signed application form * CV * Cover letter * The PhD project (host team/laboratory) - presentation of the PhD topic, its context and prospects, the work plan, and a presentation of the supervisory team, specifying the supervision percentages. * Copy of the degree obtained prior to the Master's degree, and the corresponding transcripts, where relevant. * Transcripts for all years of the Master's degree (or other degree qualifying for doctoral studies), together with certified statements from the Master's program director(s), where relevant. * Two letters of recommendation included in the PDF application file or sent directly by the signatory to

Benefits & conditions

Début de la thèse : 01/10/2026

Nature du financement

Autre financement public

Précisions sur le financement

About the company

ANR Financement d'Agences de financement de la recherche* Présentation établissement et labo d'accueil Institut Polytechnique de Paris École polytechnique Etablissement délivrant le doctorat Institut Polytechnique de Paris École polytechnique Ecole doctorale 626 Ecole Doctorale de l'Institut Polytechnique de Paris