TermITH : Terminologie et Indexation de Textes en sciences Humaines

Equipe : Traitement Automatique du Langage Naturel (TALN)
Responsable scientifique et gestion locale du projet : Béatrice Daille (PR)

Participants : Florian Boudin (MCF) - recherche d'information, Adrien Bourgouin (Doctorant)

Le Laboratoire d'Informatique de Nantes Atlantique (LINA) est une unité mixte de recherche (Université de Nantes, CNRS, EMN) depuis janvier 2008. L'équipe Traitement Automatique du Langage Naturel (TALN), classée A par l'AERES et membre du Labex Comin Labs, est l'une des neuf équipes du LINA. Elle est constituée de 12 enseignants-chercheurs, 10 doctorants et 1 post-doctorant. Elle est spécialisée dans la découverte et la modélisation d'informations linguistiques présentes dans les textes. Ses thèmes de recherches concernent : i) l'analyse et la découverte (modèles formels de syntaxe et de la sémantique des langues, analyse syntaxique, analyse conjointe, analyse sémantique, production de ressources linguistiques) et ii) l'alignement et la comparaison (alignement multilingue, alignement monolingue, mesures de comparabilité des textes et des corpus). Ces thèmes coopèrent au sein de trois grands domaines applicatifs que sont le traitement du multilinguisme, de la multimodalité et de la recherche d'information.
Le projet TERMITH s'inscrit donc directement dans le domaine applicatif de la recherche d'information de l'équipe TALN à travers le développement d'algorithmes et d'outils pour l'indexation en mots-clés et la désambiguïsation. Il vient poursuivre les récents projets dans le domaine du traitement de la terminologie comme le projet ANR CONTINT METRICC (MEmoire de Traduction, Recherche d'Information et Corpus Comparables) (2008 à 2011) et le projet européen FP7-ICT TTC (Terminology Extraction, Translation Tools and Comparable Corpora) (2010-2012) et la participation à la campagne DEFT 2012 dédiée à la découverte des mots-clés fournis par les auteurs dans des articles en sciences humaines.
L'équipe TALN a développé des outils d'acquisition de terminologie disponible sous licence APACGE 2 : ACABIT dédié à l'acquisition de termes complexes et de leurs variantes en français et anglais, ainsi que TermSuite, un extracteur de termes fonctionnant pour neuf langues adoptant l’architecture UIMA (Unstructured Information Management Architecture framework).