OATAO - Open Archive Toulouse Archive Ouverte Open Access Week

Optimisation de POMDP : quelles récompenses sont réellement attendues à l'exécution de la politique ?

Ponzoni Carvalho Chanel, Caroline and Farges, Jean-Loup and Teichteil-Königsbuch, Florent and Infantes, Guillaume Optimisation de POMDP : quelles récompenses sont réellement attendues à l'exécution de la politique ? (2010) In: 5èmes Journées Francophones de Planification, Décision et Apprentissage pour la conduite de systèmes, 1 June 2010 - 2 June 2010 (Besançon, France).

[img]
Preview
(Document in French)

PDF - Requires a PDF viewer such as GSview, Xpdf or Adobe Acrobat Reader
315kB

Abstract

Les Processus Décisionnels Markoviens Partiellement Observables sont actuellement un sujet d'intérêt dans la communauté scientifique grâce aux progrès observés dans des algorithmes de résolution et dans les capacités numériques de calcul. La plupart de ces algorithmes sont focalisés sur la résolution d'un critère de performance, qui a pour ambition de caractériser les politiques qui permettront de générer les séquences de récompenses le plus importantes possibles. Dans la planification en Intelligence Artificielle, l'attention est tournée vers un critère qui optimise une somme pondérée des récompenses, et, pour des applications en perception active d'autre part, le critère est souvent défini en termes de gain d'information (entropie de Shannon). Aucun de ces critères ne prend en compte les récompenses réellement acquises lors de l'exécution de la politique. En effet, le premier critère est une moyenne linéaire sur l'espace d'états de croyance, de sorte que l'agent ne tend pas à obtenir une meilleure information des différentes observations, alors que le second critère ne prend pas en compte les récompenses. Ainsi, motivés par des exemples démonstratifs, nous étudions deux combinaisons, additive et multiplicative, de ces critères afin d'obtenir une meilleur séquence de récompenses et de gain d'information lors de l'exécution de la politique. Nous comparons nos critères avec le critère classique optimisé (y-pondéré) dans le cadre POMDP et nous soulignons l'intérêt de considérer un nouveau critère hybride non-linéaire pour des applications réalistes de reconnaissance et pistage multi-cibles.

Item Type:Conference or Workshop Item (Paper)
Audience (conference):National conference proceedings
Uncontrolled Keywords:
Institution:Université de Toulouse > Institut Supérieur de l'Aéronautique et de l'Espace - ISAE-SUPAERO (FRANCE)
French research institutions > Office National d'Etudes et Recherches Aérospatiales - ONERA (FRANCE)
Laboratory name:
Statistics:download
Deposited By: Caroline Ponzoni Carvalho Chanel
Deposited On:07 Oct 2014 15:48

Repository Staff Only: item control page