Programme des journées
Mardi 1er juin 2010
- 9h00 : Accueil des participants
- Ouverture des journées
- 10h00-10h30 : Damien Pellier, Bruno Bouzy et Marc Métivier. Recherche heuristique basée sur le calcul de moyenne pour la planification temps réel (présentation).
- 10h30-11h00 : Alessandro Lazaric, Mohammad Ghavamzadeh and Remi Munos. Analysis of a Classification-based Policy Iteration Algorithm (présentation).
- 11h00-11h30 : Sarah Filippi, Olivier Cappe, Aurelien Garivier et Csaba Szepesvari. Bandits contextuels : apprentissage par renforcement dans les modèles linéaires généralisés (présentation).
- 11h30-12h00 : Sébastien Bubeck and Remi Munos. Open Loop Optimistic Planning (présentation).
Déjeuner sur place
- 13h30-14h00 : Arnaud Canu et Mouaddib Abdel-illah. Une nouvelle
approche pour la résolution de grandes instances de
DEC-POMDPs : Vector-Valued
DEC-POMDPs (présentation). - 14h00-14h30 : Boris Lesner and Bruno Zanuttini. Apprentissage par renforcement de PDM factorisés avec effets corrélés (présentation).
- 14h30-15h00 : Pascal Schmidt, Florent
Teichteil-Königsbuch, Guillaume Infantes and Patrick Fabiani. Sauts dans l'espace
d'états et raffinement de plan en
planification classique (présentation). - 15h00-15h30 : Alessandro Lazaric and Mohammad Ghavamzadeh. Bayesian Multi-Task Reinforcement Learning (présentation).
Pause
- 16h00-16h30 : Alessandro Lazaric, Mohammad Ghavamzadeh and Remi Munos. Finite-Sample Analysis of LSTD (présentation).
- 16h30-17h00 : Matthieu Geist and Olivier Pietquin. Statistically Linearized Least-Squares Temporal Differences (présentation).
- 17h00-17h30 : Christophe Thiery et Bruno Scherrer. Least-Squares λ Policy Iteration : optimisme et compromis biais-variance pour le contrôle optimal (présentation).
Temps libre
- 20h00 Dîner de gala
Mercredi 2 juin 2010
- 8h00 : Accueil des participants
- 8h30-9h00 : Didier Marin and Olivier Sigaud. Apprentissage par renforcement appliqué au contrôle moteur : reproduction du principe d'isochronie (présentation).
- 9h00-9h30 : Matthieu Geist and Olivier Pietquin. Revisiting natural actor-critics with value function approximation (présentation).
- 9h30-10h00 : Christophe Rodrigues, Pierre Gérard and Celine Rouveirol. Incremental learning of relational action models in noisy environments (présentation).
Pause
- 10h30-11h00 : Mauricio Araya-López, Vincent Thomas, Olivier Buffet et François Charpillet. Des POMDPs avec des variables d'état visibles (présentation).
- 11h00-11h30 : Cédric Pralet, Gerard Verfaillie, Michel Lemaître et Guillaume Infantes. Approche à base de contraintes pour la synthèse de contrôleur en environnement non déterministe et partiellement observable (présentation).
- 11h30-12h00 : Caroline P. Carvalho Chanel, Jean-Loup Farges, Florent Teichteil-Königsbuch et Guillaume Infantes. Optimisation de POMDP : quelles récompenses sont réellement attendues à l’exécution de la politique ? (présentation).
- 12h00-12h30 : Raghav Aras and Olivier Pietquin. Optimal Average Reward Controllers For POMDPs (présentation).
Déjeuner sur place
- 14h00-14h30 : Guillaume Laurent. Mise en pratique de LSPI pour la commande linéaire quadratique adaptative d'une surface de manipulation à coussin d'air actif (présentation).
- 14h30-15h00 : Alexandre Niveau, Hélène Fargier, Cédric Pralet et Gérard Verfaillie. Compilation de connaissances avec automates à intervalles et applications à la planification (présentation).
- 15h00-15h30 : Michel Lemaître, Gérard Verfaillie, Cédric Pralet et Guillaume Infantes. Synthèse de contrôleur simplement valide dans le cadre de la programmation par contraintes (présentation).
- 15h30-16h00 : Jacques Bibai, Pierre Savéant, Marc Schoenauer and Vincent Vidal. An Evolutionary Metaheuristic Based on State Decomposition for Domain-Independent Satisficing Planning (présentation).
- Discussion de clôture
L'ensemble des actes est disponible ici.
