LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Role details
Job location
Tech stack
Job description
Établissement : Université de Lorraine École doctorale : IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES Laboratoire de recherche : LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications Direction de la thèse : Karen FORT ORCID 0000000207238850, Dans ce contexte, il faudra constituer un corpus de publications scientifiques. extraire des énoncés des résumés d'articles - en particulier les affirmations -, les aligner avec des énoncés décrivant le même contenu dans le texte intégral et analyser en détail les liens entre eux. L'extraction et l'alignement s'appuieront sur des travaux antérieurs: Bleuze et al. (2024) permettent l'identification automatique des affirmations et peuvent être utilisés pour extraire des énoncés pertinents des résumés et des textes intégraux afin de les apparier. Des mesures de similarité de phrases peuvent également être utilisées pour faciliter l'appariement des phrases des résumés et des textes intégraux. Le doctorant analysera ensuite automatiquement les relations sémantiques entre les phrases des résumés et leurs équivalents les plus «similaires» dans les textes intégraux, et évaluera si les affirmations présentes dans les textes intégraux figurent également dans les résumés. L'étude explorera la cohérence du contenu entre les résumés et les textes intégraux, ainsi que la sélection du contenu opérée par les résumés à partir du contenu intégral d'un article.
Inadequate reporting is an understudied cause of bias in research [Boutron et al. 2010, Macleod et Al. 2014]. Problems include, but are not limited to, non-reporting or delayed reporting of studies, omissions from or misinterpretation of results in abstracts, distorted reporting and interpretation of study results to convince the reader of benefits not supported by the main findings. These issues have been studied in biomedical research with publication guidelines being proposed to improve the quality of reporting [Ghimire et al. 2014]. There is much at stake here, as inadequate reporting can negatively impact the trust of the research community and society in scientific research. Risks also include poor decision-making due to distorted results, such as deployment of systems that are not accurate enough for their intended usage because benefits have been over-estimated and drawbacks minimized or even not considered at all [Buolamwini et al. 2018]. Natural Language processing can contribute further interventions through the development of automatic text analysis to identify scientific claims and contrast them with research results [Koroleva et al. 2020, Bleuze, 2024]. Building on this recent work, there is a need to advance the automatic characterization of claims and results by leveraging content from both the abstracts and full text scientific publications as well as other types of sources such as figures, and tables.
The objective of this project is to analyze a corpus of scientific publications for entailment between statements in the abstracts vs. full text, including information retrieval models, dense vector representations.
The PhD student will build a corpus of scientific publications in the biomedical domain. They will extract statements from an article abstract - in particular, claims -, align them with statements describing the same content in the article full text and further analyze the entailement between them. The extraction and alignment will build on previous work: Bleuze et al (2024) supports the automatic identification of claims and can be used to extract statements of interest from abstracts and full text to pair them. Sentence similarity measures can also be used to support the pairing of sentences from abstract and full text. The PhD student will analyze the semantic relationships between abstract sentences and their most «similar» counterpart in full text, and assess whether claims made in the full text are present in abstracts. The study will explore the consistency of content in abstracts vs. full text as well as the content selection operationalized by abstracts from the full content of an article.
Requirements
anglais courant- Master en TAL- intérêt démontré pour la création de corpsu et les questions éthiques- Maîtrise de Python- Utilisation de LLM ","identifier":{"@type":"PropertyValue","name":"Université de Lorraine","value":"4f7e8e413a6cd384d11b801b4c3b1a40"},"url":"https://www.hellowork.com/fr-fr/emplois/77212759.html","datePosted":"2026-03-24T20:36:09Z","directApply":false,"educationRequirements":{"@type":"EducationalOccupationalCredential","credentialCategory":"postgraduate degree"},"employmentType":["TEMPORARY","FULL_TIME"],"experienceRequirements":"no requirements","hiringOrganization":{"@type":"Organization","name":"Université de Lorraine"},"industry":"Service public d'état","jobLocation":{"@type":"Place","address":{"@type":"PostalAddress","addressCountry":"FR","addressRegion":"Champagne-Ardenne"}},"occupationalCategory":"Chimie","qualifications":"- anglais courant
- Master en TAL
- intérêt démontré pour la création de corpsu et les questions éthiques
- Maîtrise de Python
- Utilisation de
Benefits & conditions
Début de la thèse : 2026-10-01 Date limite de candidature : 2026-04-24T23:59:59