OATAO - Open Archive Toulouse Archive Ouverte Open Access Week

Factorisation bayésienne de matrices pour le filtrage collaboratif

Gouvert, Olivier. Factorisation bayésienne de matrices pour le filtrage collaboratif. PhD, Informatique et Télécommunications, Institut National Polytechnique de Toulouse, 2019

[img]
Preview
(Document in English)

PDF (Author's version) - Requires a PDF viewer such as GSview, Xpdf or Adobe Acrobat Reader
3MB

Abstract

Ces quinze dernières années, les systèmes de recommandation ont fait l'objet de nombreuses recherches. L'objectif de ces systèmes est de recommander à chaque utilisateur d'une plateforme des contenus qu'il pourrait apprécier. Cela permet notamment de faciliter la navigation des utilisateurs au sein de très larges catalogues de produits. Les techniques dites de filtrage collaboratif (CF) permettent de faire de telles recommandations à partir des historiques de consommation des utilisateurs uniquement. Ces informations sont habituellement stockées dans des matrices où chaque coefficient correspond au retour d'un utilisateur sur un article. Ces matrices de retour ont la particularité d'être de très grande dimension mais aussi d'être extrêmement creuses puisque les utilisateurs n'ayant interagi qu'avec une petite partie du catalogue. Les retours dits implicites sont les retours d'utilisateurs les plus faciles à collecter. Ils peuvent par exemple prendre la forme de données de comptage, qui correspondent alors au nombre de fois où un utilisateur a interagi avec un article. Les techniques de factorisation en matrices non-négatives (NMF) consistent à approximer cette matrice de retour par le produit de deux matrices non-négatives. Ainsi, chaque utilisateur et chaque article présents dans le système sont représentés par un vecteur non-négatif correspondant respectivement à ses préférences et attributs. Cette approximation, qui correspond à une technique de réduction de dimension, permet alors de faire des recommandations aux utilisateurs. L'objectif de cette thèse est de proposer des méthodes bayésiennes de NMF permettant de modéliser directement les données de comptage sur-dispersées rencontrées en CF. Pour cela, nous étudions d'abord la factorisation Poisson (PF) et présentons ses limites concernant le traitement des données brutes. Pour pallier les problèmes rencontrés par la PF, nous proposons deux extensions de celle-ci : la factorisation binomiale négative (NBF) et la factorisation Poisson composée discrète (dcPF). Ces deux méthodes bayésiennes de NMF proposent des modèles hiérarchiques permettant d'ajouter de la variance. En particulier, la dcPF amène à une interprétation des variables spécialement adaptée à la recommandation musicale. Nous choisissons ensuite de travailler avec des données implicites quantifiées. Cette quantification permet de simplifier la forme des données collectées et d'obtenir des données ordinales. Nous développons donc un modèle de NMF probabiliste adapté aux données ordinales et montrons qu'il peut aussi être vu comme une extension de la PF appliquée à des données pré-traitées. Enfin, le dernier travail de cette thèse traite du problème bien connu de démarrage à froid qui affecte les méthodes de CF. Nous proposons un modèle de co-factorisation de matrices permettant de résoudre ce problème.

Item Type:PhD Thesis
Uncontrolled Keywords:
Institution:Université de Toulouse > Institut National Polytechnique de Toulouse - Toulouse INP (FRANCE)
Laboratory name:
Research Director:
Févotte, Cédric and Oberlin, Thomas
Statistics:download
Deposited On:07 Apr 2020 15:34

Repository Staff Only: item control page