Analyse et Traitement Informatique de la Langue Française

Equipe : Lexique, axe Linguistique de corpus
Responsable scientifique du projet : Evelyne Jacquey (CR)
Coordination du projet : Evelyne Jacquey et Laurence Kister (MCF)

L’axe Linguistique de Corpus de l’équipe Lexique travaille en collaboration étroite l’équipe Ressources, normalisation, annotation et exploitation toutes deux assistées par les services de Soutien technique à la recherche, le Centre de documentation et le service de Communication et valorisation.
Ressources, normalisation, annotation et exploitation : Bertrand Gaiffe (IR), Etienne Petitjean (IR)
Centre de documentation : Viviane Berthelier (IR), Cornelia Comsa (ITRF), Virginie Moulla (TCN), Dominique Schloupt (TS)
Communication et valorisation : William del Mancino (IR), Laurent Gobert (TS)
Soutien technique à la recherche : Benjamin Husson (IE), Jean-Marc Humbert (IR)

L’ATILF - Analyse et Traitement Informatique de la Langue Française – est une UMR (7118 - CNRS/Université de Lorraine) rattachée à l’Institut des sciences humaines et sociales du CNRS, laboratoire d’interface avec le Département des sciences et technologie de l’information et de l’ingénierie, membre de l’Institut de Linguistique Française (ILF – fédération CNRS) et du consortium international TEI (Text Encoding Initiative).
L’axe Linguistique de corpus de l’équipe Lexique s’intéresse conjointement à la sémantique et la terminologie. La problématique centrale de cet axe s’articule autour de la désignation, de la représentation conventionnelle d’un concept dans un domaine de spécialité à l’aide d’un terme simple ou complexe. Elle se fonde sur une approche associant sémantique lexicale, sémantique textuelle et terminologie. Les travaux développés dans ce cadre s’intéressent plus particulièrement à la langue de spécialité et aux ressources terminologiques en sciences du langage. La perspective d’une amélioration de l’indexation des textes (indexation assistée au sens documentaire) demande une analyse des données lexicographiques et une annotation sémantique des termes afin d’établir une liste des concepts présents en texte intégral. L’annotation en texte intégral entraine le repérage de candidats termes caractéristiques du domaine qui ne figurent pas encore dans les ressources terminologiques (vocabulaire de domaine, nomenclature, terminologie, thesaurus) ce qui nécessite leur désambiguïsation sémantique et terminologique. Le travail d’analyse, de désambiguïsation et de sélection des nouveaux termes parmi les candidats termes d’un texte demande une prise en compte d’informations syntaxiques, pragmatiques (usages effectifs des termes dans la langue de spécialité), etc. La perspective d’une automatisation du repérage des candidats termes repose sur l’utilisation de techniques relevant du traitement automatique des langues (utilisation d’extracteur de candidats termes, exploitation de techniques de fouille de données textuelles). La nécessité de contribuer à l’aide à l’indexation et à l’amélioration du thesaurus en proposant des termes émergents particulièrement représentatifs des documents annotés par des informations terminologiques et sémantiques émane du constat selon lequel les ressources actuelles ne sont satisfaisantes, ni pour l’annotation terminologique de textes, ni pour l’indexation de documents du domaine des sciences du langage par les documentalistes.


ATILF (Analyse et Traitement Informatique de la Langue Française) C.N.R.S. Université de Lorraine