OATAO - Open Archive Toulouse Archive Ouverte Open Access Week

Décision séquentielle pour la perception active : p-POMDP versus POMDP

Ponzoni Carvalho Chanel, Caroline and Teichteil-Königsbuch, Florent and Fabiani, Patrick Décision séquentielle pour la perception active : p-POMDP versus POMDP. (2013) In: 8èmes Journées Francophones Planification, Décision, et Apprentissage pour la conduite de systèmes (JFPDA), 1 July 2013 - 2 July 2013 (Lille, France).

[img]
Preview
(Document in French)

PDF (Author's version) - Requires a PDF viewer such as GSview, Xpdf or Adobe Acrobat Reader
384kB

Abstract

Cet article propose une étude du compromis entre la prise d’information et la décision dans un cadre applicatif qui se rapporte à une mission d’exploration, où l’agent interagit avec son environnement pour identifier l’état caché du système. Dans ce problème de décision séquentielle pour la perception, il est possible de faire reposer la fonction de récompense sur une mesure de l’incertitude sur l’état de croyance de l’agent (Araya-López et al., 2010; Candido & Hutchinson, 2011; Eidenberger & Scharinger, 2010). Sa forme est donc différente de celle utilisée dans le cadre classique des POMDP qui est, pour sa part, basée sur la paire état-action. Nous comparons donc deux approches d’optimisation des politiques pour ce type de problème. D’une part nous proposons un critère mixte qui couple une mesure de l’incertitude sur l’état de croyance avec les récompenses définies par les paires état-action et nous développons un schéma algorithmique de résolution pour ce critère. D’autre part, nous proposons d’ajouter au modèle des états but fictifs au moyen des actions de classification afin de revenir à une modélisation sous-forme de POMDP classique (critère non mixte). Une étude comparative de ces approches est ici présentée afin de vérifier leur équivalence en termes de prise d’informations. Les résultats nous mènent à conclure que ces approches sont non seulement comparables et équivalentes en termes de réduction d’incertitude, mais aussi, qu’elles peuvent être utilisées en parfaite complémentarité de façon à permettre : de caractériser une politique correspondant aux taux acceptables des bonnes et mauvaises classifications et de déterminer les bonnes valeurs des coûts et des récompenses du modèle POMDP classique.

Item Type:Conference or Workshop Item (Paper)
Audience (conference):National conference proceedings
Uncontrolled Keywords:
Institution:Université de Toulouse > Institut Supérieur de l'Aéronautique et de l'Espace - ISAE-SUPAERO (FRANCE)
French research institutions > Office National d'Etudes et Recherches Aérospatiales - ONERA (FRANCE)
Laboratory name:
Statistics:download
Deposited By: Caroline Ponzoni Carvalho Chanel
Deposited On:29 Jul 2014 14:14

Repository Staff Only: item control page