OATAO - Open Archive Toulouse Archive Ouverte Open Access Week

Optimisation des Processus Décisionnels de Markov Partiellement Observables avec prise en compte explicite du gain d’information

Ponzoni Carvalho Chanel, Caroline and Teichteil-Königsbuch, Florent and Infantes, Guillaume Optimisation des Processus Décisionnels de Markov Partiellement Observables avec prise en compte explicite du gain d’information. (2010) In: 17ème congrès francophone AFRIF-AFIA en Reconnaissance des Formes et Intelligence Artificielle (RFIA 2010), 19 January 2010 - 22 January 2010 (Caen, France).

[img]
Preview
(Document in French)

PDF (Author's version) - Requires a PDF viewer such as GSview, Xpdf or Adobe Acrobat Reader
367kB

Abstract

Traditionnellement, les travaux de recherche en décision séquentielle dans l'incertain avec observabilité partielle reposent sur les Processus Décisionnels de Markov Partiellement Observables (POMDP), optimisés avec un critère de maximisation de revenus cumulés pondérés sur un horizon d'action donné. Or, ce critère est pessimiste dans la mesure où la décision est optimisée sur une distribution de probabilité sur l'état de croyance de l'agent autonome, sans que l'algorithme ne réduise explicitement cette incertitude. Autrement dit, les critères classiques d'optimisation des POMDP raisonnent sur toutes les hypothèses possibles, sans favoriser explicitement les actions qui pourraient acquérir de l'information et réduire le champ d’hypothèses. Au contraire, les travaux en traitement d'image et particulièrement en perception active s'intéressent plutôt à trouver les actions qui minimisent l'entropie de croyance, c'est-à-dire l'incertitude sur l'état caché, mais sans optimiser une récompense globale liée à la mission du robot. Ainsi, afin de résoudre au mieux des problèmes robotiques alliant à la fois des objectifs de perception et de mission, nous proposons deux nouveaux critères mixtes, l'un additif et l’autre multiplicatif, qui agrègent les récompenses cumulées (mission) et les entropies de croyance cumulées (perception), toutes deux pondérées sur un horizon d'action commun. À l'aide d’évaluations statistiques sur plusieurs exécutions de la politique optimisée, nous montrons que nos critères mixtes sont optimaux par rapport à un critère purement entropique, et que le critère additif améliore même un critère basé purement sur les récompenses de la mission. Ce dernier point démontre que le critère classique, qui repose uniquement sur les récompenses cumulées, n'est pas optimal lors de l’exécution, car il ne prend pas en compte explicitement le gain d'information et la réduction de l’incertitude sur l'état caché du système.

Item Type:Conference or Workshop Item (Paper)
Audience (conference):National conference proceedings
Uncontrolled Keywords:
Institution:Université de Toulouse > Institut Supérieur de l'Aéronautique et de l'Espace - ISAE-SUPAERO (FRANCE)
French research institutions > Office National d'Etudes et Recherches Aérospatiales - ONERA (FRANCE)
Laboratory name:
Statistics:download
Deposited By: Caroline Ponzoni Carvalho Chanel
Deposited On:29 Sep 2014 15:16

Repository Staff Only: item control page