scholarly journals Algorithms to get out of Boring Area Trap in Reinforcement Learning

2021 ◽  
Vol Volume 34 - 2020 - Special... ◽  
Author(s):  
Landry Steve Noulawe Tchamanbe ◽  
Paulin MELATAGIA YONTA

International audience Reinforcement learning algorithms have succeeded over the years in achieving impressive results in a variety of fields. However, these algorithms suffer from certain weaknesses highlighted by Refael Vivanti and al. that may explain the regression of even well-trained agents in certain environments : the difference in variance on rewards between areas of the environment. This difference in variance leads to two problems : Boring Area Trap and Manipulative consultant. We note that the Adaptive Symmetric Reward Noising (ASRN) algorithm proposed by Refael Vivanti and al. has limitations for environments with the following characteristics : long game times and multiple boring area environments. To overcome these problems, we propose three algorithms derived from the ASRN algorithm called Rebooted Adaptive Symmetric Reward Noising (RASRN) : Continuous ε decay RASRN, Full RASRN and Stepwise α decay RASRN. Thanks to two series of experiments carried out on the k-armed bandit problem, we show that our algorithms can better correct the Boring Area Trap problem. Les algorithmes d'apprentissage par renforcement ont réussi au fil des années à obtenir des résultats impressionnants dans divers domaines. Cependant, ces algorithmes souffrent de certaines faiblesses mises en évidence par Refael Vivanti et al. qui peuvent expliquer la régression des agents même bien entraînés dans certains environnements : la différence de variance sur les récompenses entre les zones de l'environnement. Cette différence de variance conduit à deux problèmes : le Piège de la Zone Ennuyeuse (Boring Area Trap) et le Consultant Manipulateur. Nous observons que l'algorithme Adaptive Symmetric Reward Noising (ASRN) proposé par Refael Vivanti et al. présente des limites pour des environnements ayant les caractéristiques suivantes : longues durées de jeu et environnement à zones ennuyeuses multiples. Pour pallier ces problèmes, nous proposons trois algorithmes dérivés de l'algorithme ASRN nommés Rebooted Adaptive Symmetric Reward Noi-sing (RASRN) : Continuous ε decay RASRN, Full RASRN et Stepwise α decay RASRN. Grâce à deux séries d'expérimentations menées sur le problème du bandit à k bras, nous montrons que ces algorithmes permettent de mieux corriger le problème du piège de la zone ennuyeuse.

2011 ◽  
Vol DMTCS Proceedings vol. AO,... (Proceedings) ◽  
Author(s):  
Suho Oh ◽  
Hwanchul Yoo

International audience Develin and Sturmfels showed that regular triangulations of $\Delta_{n-1} \times \Delta_{d-1}$ can be thought of as tropical polytopes. Tropical oriented matroids were defined by Ardila and Develin, and were conjectured to be in bijection with all subdivisions of $\Delta_{n-1} \times \Delta_{d-1}$. In this paper, we show that any triangulation of $\Delta_{n-1} \times \Delta_{d-1}$ encodes a tropical oriented matroid. We also suggest a new class of combinatorial objects that may describe all subdivisions of a bigger class of polytopes. Develin et Sturmfels ont montré que les triangulations de $\Delta_{n-1} \times \Delta_{d-1}$ peuvent être considérées comme des polytopes tropicaux. Les matroïdes orientés tropicaux ont été définis par Ardila et Develin, et ils ont été conjecturés être en bijection avec les subdivisions de $\Delta_{n-1} \times \Delta_{d-1}$. Dans cet article, nous montrons que toute triangulation de $\Delta_{n-1} \times \Delta_{d-1}$ encode un matroïde orienté tropical. De plus, nous proposons une nouvelle classe d'objets combinatoires qui peuvent décrire toutes les subdivisions d'une plus grande classe de polytopes.


2014 ◽  
Vol Volume 17 - 2014 - Special... ◽  
Author(s):  
Mandicou Ba ◽  
Olivier Flauzac ◽  
Bachar Salim Haggar ◽  
Rafik MAKHLOUFI ◽  
Florent Nolot ◽  
...  

International audience In this paper, we present a self-stabilizing asynchronous distributed clustering algorithm that builds non-overlapping k-hops clusters. Our approach does not require any initialization. It is based only on information from neighboring nodes with periodic messages exchange. Starting from an arbitrary configuration, the network converges to a stable state after a finite number of steps. Firstly, we prove that the stabilization is reached after at most n+2 transitions and requires (u+1)* log(2n+k+3) bits per node, whereΔu represents node's degree, n is the number of network nodes and k represents the maximum hops number. Secondly, using OMNet++ simulator, we performed an evaluation of our proposed algorithm. Dans cet article, nous proposons un algorithme de structuration auto-stabilisant, distribuéet asynchrone qui construit des clusters de diamètre au plus 2k. Notre approche ne nécessite aucuneinitialisation. Elle se fonde uniquement sur l’information provenant des noeuds voisins à l’aided’échanges de messages. Partant d’une configuration quelconque, le réseau converge vers un étatstable après un nombre fini d’étapes. Nous montrons par preuve formelle que pour un réseau de nnoeuds, la stabilisation est atteinte en au plus n + 2 transitions. De plus, l’algorithme nécessite uneoccupation mémoire de (u + 1) log(2n + k + 3) bits pour chaque noeud u où u représente ledegré (nombre de voisins) de u et k la distance maximale dans les clusters. Afin de consolider lesrésultats théoriques obtenus, nous avons effectué une campagne de simulation sous OMNeT++ pourévaluer la performance de notre solution.


2010 ◽  
Vol DMTCS Proceedings vol. AN,... (Proceedings) ◽  
Author(s):  
Anders Claesson ◽  
Svante Linusson

International audience We show that there are $n!$ matchings on $2n$ points without, so called, left (neighbor) nestings. We also define a set of naturally labelled $(2+2)$-free posets, and show that there are $n!$ such posets on $n$ elements. Our work was inspired by Bousquet-Mélou, Claesson, Dukes and Kitaev [J. Combin. Theory Ser. A. 117 (2010) 884―909]. They gave bijections between four classes of combinatorial objects: matchings with no neighbor nestings (due to Stoimenow), unlabelled $(2+2)$-free posets, permutations avoiding a specific pattern, and so called ascent sequences. We believe that certain statistics on our matchings and posets could generalize the work of Bousquet-Mélou et al. and we make a conjecture to that effect. We also identify natural subsets of matchings and posets that are equinumerous to the class of unlabeled $(2+2)$-free posets. We give bijections that show the equivalence of (neighbor) restrictions on nesting arcs with (neighbor) restrictions on crossing arcs. These bijections are thought to be of independent interest. One of the bijections maps via certain upper-triangular integer matrices that have recently been studied by Dukes and Parviainen [Electron. J. Combin. 17 (2010) #R53]. Nous montrons qu'il y a $n!$ couplages sur $2n$ points sans emboîtement (de voisins) à gauche. Nous définissons aussi un ensemble d'EPO (ensembles partiellement ordonnés) sans motif $(2+2)$ naturellement étiquetés, et montrons qu'il y a $n!$ tels EPO sur $n$ éléments. Notre travail a été inspiré par Bousquet-Mélou, Claesson, Dukes et Kitaev [J. Combin. Theory Ser. A. 117 (2010) 884―909]. Ces auteurs donnent des bijections entre quatre classes d'objets combinatoires: couplages sans emboîtement de voisins (dû à Stoimenow), EPO sans motif $(2+2)$ non étiquetés, permutations évitant un certain motif, et des objets appelés suites à montées. Nous pensons que certaines statistiques sur nos couplages et nos EPO pourraient généraliser le travail de Bousquet-Mélou et al. et nous proposons une conjecture à ce sujet. Nous identifions aussi des sous-ensembles naturels de couplages et d'EPO qui sont énumérés par la même séquence que la classe des EPO sans motif $(2+2)$ non étiquetés. Nous donnons des bijections qui démontrent l'équivalence entre les restrictions sur les emboîtements (d'arcs voisins) et les restrictions sur les croisements (d'arcs voisins). Nous pensons que ces bijections présentent un intérêt propre. L'une de ces bijections passe par certaines matrices triangulaires supérieures à coefficients entiers qui ont été récemment étudiées par Dukes et Parviainen [Electron. J. Combin. 17 (2010) #R53].


2006 ◽  
Vol Volume 5, Special Issue TAM... ◽  
Author(s):  
Anne Sophie Bonnet-Bendhia ◽  
Kamel Berriri ◽  
Patrick Joly

International audience In this paper we are interested in the mathematical and numerical analysis of the timedependent Galbrun equation in a rigid duct. This equation modelizes the acoustic propagation in presence of flow. We prove the well-posedness of the problem for a subsonic uniform flow. Besides, we propose a regularized variational formulation of the problem suitable for an approximation by Lagrange finite elements. Dans ce papier, nous nous intéressons à l'analyse mathématique et à l'approximation numérique de l'équation de Galbrun en régime transitoire dans un conduit rigide. Cette équation modélise la propagation d'ondes acoustiques en présence d écoulement. Nous montrons pour un écoulement porteur uniforme subsonique que ce modèle a une solution unique. En outre, nous proposons une formulation variationnelle régularisée qui se prête à une approximation par éléments finis de Lagrange.


2008 ◽  
Vol Volume 8, Special Issue... ◽  
Author(s):  
Fabien Campillo ◽  
Philippe Cantet ◽  
Rivo Rakotozafy ◽  
Vivien Rossi

International audience Markov chain Monte Carlo (MCMC) methods together with hidden Markov models are extensively used in the Bayesian inference for many scientific fields like environment and ecology. Through simulated examples we show that the speed of convergence of these methods can be very low. In order to improve the convergence properties, we propose a method to make parallel chains interact. We apply this method to a biomass evolution model for fisheries. Les méthodes de Monte Carlo par chaînes de Markov (MCMC) couplées à des modèles de Markov cachés sont utilisées dans de nombreux domaines, notamment en environnement et en écologie. Sur des exemples simples, nous montrons que la vitesse de convergence de ces méthodes peut être très faible. Nous proposons de mettre en interaction plusieurs algorithmes MCMC pour accélérer cette convergence. Nous appliquons ces méthodes à un modèle d'évolution de la biomasse d'une pêcherie.


2019 ◽  
Vol Volume 8, Issue 1, Special... (Research articles) ◽  
Author(s):  
Marc Baloup ◽  
Thomas Pietrzak ◽  
Géry Casiez

International audience Raycasting is the most common target pointing technique in virtual reality environments. However, performance on small and distant targets is impacted by the accuracy of the pointing device and the user's motor skills. Current pointing facilitation techniques are currently only applied in the context of the virtual hand, i.e. for targets within reach. We propose enhancements to Raycasting : filtering the ray, and adding a controllable cursor on the ray to select the nearest target. We describe a series of studies for the design of the visual feedforward, filtering technique, as well as a comparative study between different 3D pointing techniques. Our results show that highlighting the nearest target is one of the most efficient visual feedforward technique. We also show that filtering the ray reduces error rate in a drastic way. Finally we show the benefits of RayCursor compared to Raycasting and another technique from the literature. Raycasting est la technique de pointage de cible la plus courante dans les environnements de réalité virtuelle. Cependant, sa performance sur des cibles à la fois petites et distantes est affectée par la précision du dispositif de pointage et les capa-cités motrices de l'utilisateur. Les techniques actuelles de facilitation du pointage ne sont actuellement appliquées que dans le contexte de la main virtuelle, c'est-à-dire pour les cibles à portée de main. Nous proposons des améliorations au Raycasting : le fil-trage du rayon, et l'ajout d'un curseur contrôlable sur celui-ci pour sélectionner la cible la plus proche. Nous décrivons une série d'études pour la conception d'aides visuelles, la technique de filtrage, ainsi qu'une étude comparative entre différentes techniques de pointage 3D. Nos résultats montrent que la mise en évidence de la cible la plus proche est l'une des techniques les plus efficaces de rétroaction visuelle. Nous montrons éga-lement que le filtrage du rayon réduit le taux d'erreur de manière drastique. Enfin, nous montrons les avantages de RayCursor par rapport à Raycasting et à une autre technique de la littérature.


2021 ◽  
Vol 11 (11) ◽  
pp. 4948
Author(s):  
Lorenzo Canese ◽  
Gian Carlo Cardarilli ◽  
Luca Di Di Nunzio ◽  
Rocco Fazzolari ◽  
Daniele Giardino ◽  
...  

In this review, we present an analysis of the most used multi-agent reinforcement learning algorithms. Starting with the single-agent reinforcement learning algorithms, we focus on the most critical issues that must be taken into account in their extension to multi-agent scenarios. The analyzed algorithms were grouped according to their features. We present a detailed taxonomy of the main multi-agent approaches proposed in the literature, focusing on their related mathematical models. For each algorithm, we describe the possible application fields, while pointing out its pros and cons. The described multi-agent algorithms are compared in terms of the most important characteristics for multi-agent reinforcement learning applications—namely, nonstationarity, scalability, and observability. We also describe the most common benchmark environments used to evaluate the performances of the considered methods.


Sign in / Sign up

Export Citation Format

Share Document