TermITH s’intéresse à l'accès à l'information des documents numériques par le biais d’une indexation fondée sur les termes qu’ils contiennent, ce qui suppose reconnaissance, désambiguïsation et analyse des termes.
La démarche développée par TermITH suppose de croiser des occurrences désambiguïsées de termes candidats avec des lexiques transdisciplinaires et les ressources terminologiques disponibles pour isoler les termes propres au domaine étudié. Elle présente deux intérêts principaux :
• la désambiguïsation et le croisement avec les lexiques transdisciplinaires et les ressources terminologiques à disposition réduit l'effort humain de vérification des termes (ou descripteurs) proposés et l'analyse manuelle du contenu des documents
• la mise à jour automatisée des ressources terminologiques devient envisageable
Sur le plan théorique, TermITH présente l'originalité d'articuler et de rendre complémentaires des disciplines de recherches actuellement parallèles :
• la désambiguïsation contextuelle
• la fouille de données
• la textométrie
• la détection automatique des candidats termes
• la projection de ressources et de lexiques
Sur le plan expérimental, TermITH s’intéresse en particulier à un champ scientifique très ambigu entre langue terminologique de spécialité et langue générale : les sciences humaines et sociales. La méthodologie, mise au point sur une discipline test - la linguistique - sera validée sur l’archéologie, la psychologie (psychanalyse, psychologie sociale et sciences cognitives), les sciences de l’information, et la chimie. Si les premiers résultats sont positifs, l'indexation de documents relevant de disciplines moins ambigües sera facilitée par l’application de notre méthodologie.
|