OATAO - Open Archive Toulouse Archive Ouverte Open Access Week

La structure thème-rhème pour l'ordonnancement de documents en recherche d'information

Ermakova, Liana and Mothe, Josiane La structure thème-rhème pour l'ordonnancement de documents en recherche d'information. (2017) Document numérique, 20 (1). 39-66. ISSN 1279-5127

[img]
Preview
(Document in French)

PDF (Author's version) - Requires a PDF viewer such as GSview, Xpdf or Adobe Acrobat Reader
602kB

Official URL: https://dn.revuesonline.com/article.jsp?articleId=38955

Abstract

La recherche d'information fait souvent l'hypothèse que les documents pertinents sont "à propos de" la requête; la requête est ainsi supposée refléter le besoin d'information de l'utilisateur de façon appropriée. La plupart des moteurs de recherche fait l'hypothèse que le fait d'être "à propos de" peut être mesuré par l'appariement des termes du document et ceux de la requête selon une représentation par sac de mots. Cependant, les modèles existants ne sont pas capables de capter la distribution entre l'information déjà connue et l'information nouvelle apportée par l'énoncé. L'objectif principal de ce papier est de proposer l'utilisation de la structure thème-rhème pour le ré-ordonnancement de documents en recherche d'information. Nous avons analysé manuellement la structure thème-rhème des documents issus de trois collections: Wikipédia, TREC Robust et WT10G. Grâce à cette analyse, nous avons introduit une méthode complètement automatique pour annoter la structure informationnelle. Elle s'appuie sur l'hypothèse que le thème a tendance à être positionné au début des phrases. La structure thème-rhème est identifiée automatiquement à partir des premiers documents retrouvés qui sont ré-ordonnés selon cette structure intégrée dans le formalisme BM25F. Cette méthode n'exige qu'une analyse syntaxique de surface, à savoir le découpage en phrases et le balisage des parties de discours. L'évaluation sur les collections TREC montre que notre méthode améliore significativement les résultats de recherche d'information par rapport aux systèmes de l'état de l'art.

Item Type:Article
Audience (journal):National peer-reviewed journal
Uncontrolled Keywords:
Institution:French research institutions > Centre National de la Recherche Scientifique - CNRS (FRANCE)
Other partners > Ecole de l'Innovation Technologique - ESIEE PARIS (FRANCE)
Université de Toulouse > Institut National Polytechnique de Toulouse - Toulouse INP (FRANCE)
French research institutions > Institut national de recherche pour l'agriculture, l'alimentation et l'environnement - INRAE (FRANCE)
Université de Toulouse > Université Toulouse III - Paul Sabatier - UT3 (FRANCE)
Université de Toulouse > Université Toulouse - Jean Jaurès - UT2J (FRANCE)
Université de Toulouse > Université Toulouse 1 Capitole - UT1 (FRANCE)
Other partners > Université de Lorraine (FRANCE)
Other partners > Université Paris-Est Marne-La-Vallée - UPEM (FRANCE)
Laboratory name:
Statistics:download
Deposited On:29 Apr 2020 15:41

Repository Staff Only: item control page