OATAO - Open Archive Toulouse Archive Ouverte Open Access Week

Modélisation de la faisabilité d'action dans le POMDP avec des préconditions booléennes

Ponzoni Carvalho Chanel, Caroline and Teichteil-Königsbuch, Florent and Infantes, Guillaume and Fabiani, Patrick Modélisation de la faisabilité d'action dans le POMDP avec des préconditions booléennes. (2011) In: 6èmes Journées Francophones Planification, Décision, et Apprentissage pour la conduite de systèmes, 23 June 2011 - 24 June 2011 (Rouen, France).

[img]
Preview
(Document in French)

PDF - Requires a PDF viewer such as GSview, Xpdf or Adobe Acrobat Reader
714kB

Official URL: https://zanuttini.users.greyc.fr/jfpda2011/chades.pdf

Abstract

En planification classique, une précondition sur une action est une formule booléenne, qui vérifie si une action est réalisable pour un état donné. Cet élément crucial pour des applications réalistes, où par exemple des actions considérées dangereuses doivent être éliminées, n'a pas été formellement modélisé pour les POMDPs à notre connaissance. Une raison est que les préconditions sont définies sur des états, i.e. le domaine d'application de l'action, alors que les décisions prises dans un POMDP sont définies sur l'état de croyance courant de l'agent. Définir simplement des préconditions sur des états de croyance n'est pas suffisant, puisque chaque état de croyance peut-être défini sur plusieurs états, et il n'y a pas de garantie d'éviter que l'agent applique une action infaisable. Augmenter l'espace d'observations avec des actions réalisables n'est pas non plus satisfaisant, d'abord parce que l'information sur les actions applicables est obtenue, par définition, après la décision et, de plus, le processus d'optimisation continuera de maximiser la valeur de l'état de croyance courant sur toutes les actions du modèle. Ainsi, nous proposons une extension du modèle traditionnel des POMDP qui, via une étape additionnelle d'information sémantiquement différente de l'observation standard,permet à l'agent de connaître avec certitude l'ensemble d'actions réalisables avant de décider de la meilleure action à appliquer. Cette étape additionnelle d'information, qui ne nécessite pas de connaître complètement l'état courant de l'agent, requiert une modification significative du modèle de décision, pour lequel nous fournissons un nouveau schéma d'optimisation. Nous comparons la valeur des trajectoires des politiques optimisées pour le modèle traditionnel et pour le modèle proposé, et nous montrons que nos politiques s'avèrent toujours sûres, i.e. sans danger, et expriment donc une valeur plus importante pour des problèmes avec observabilité partielle qui présentent naturellement des préconditions booléennes.

Item Type:Conference or Workshop Item (Paper)
Audience (conference):National conference proceedings
Uncontrolled Keywords:
Institution:Université de Toulouse > Institut Supérieur de l'Aéronautique et de l'Espace - ISAE-SUPAERO (FRANCE)
French research institutions > Office National d'Etudes et Recherches Aérospatiales - ONERA (FRANCE)
Laboratory name:
Statistics:download
Deposited By: Caroline Ponzoni Carvalho Chanel
Deposited On:09 Oct 2014 09:57

Repository Staff Only: item control page