scholarly journals Multiple Model Reinforcement Learning for Environments with Poissonian Time Delays

2014 ◽  
Author(s):  
Jeff Campbell
2002 ◽  
Vol 14 (6) ◽  
pp. 1347-1369 ◽  
Author(s):  
Kenji Doya ◽  
Kazuyuki Samejima ◽  
Ken-ichi Katagiri ◽  
Mitsuo Kawato

We propose a modular reinforcement learning architecture for nonlinear, nonstationary control tasks, which we call multiple model-based reinforcement learning (MMRL). The basic idea is to decompose a complex task into multiple domains in space and time based on the predictability of the environmental dynamics. The system is composed of multiple modules, each of which consists of a state prediction model and a reinforcement learning controller. The “responsibility signal,” which is given by the softmax function of the prediction errors, is used to weight the outputs of multiple modules, as well as to gate the learning of the prediction models and the reinforcement learning controllers. We formulate MMRL for both discrete-time, finite-state case and continuous-time, continuous-state case. The performance of MMRL was demonstrated for discrete case in a nonstationary hunting task in a grid world and for continuous case in a nonlinear, nonstationary control task of swinging up a pendulum with variable physical parameters.


Author(s):  
M. Sumathy ◽  
Adem Kılıçman ◽  
M. Maria Susai Manuel ◽  
Jesintha Mary

In this paper, initially a mathematical model is formulated for transient frequency of power system considering time delays which occur while transmitting the control signals in open communication infrastructure. Time delay negligence in a power system leads to improper measurement of frequency variation in power system. The study of impact of time delays on the stability of power system is performed by estimating the decay rate of frequency wave form using Kalman Filter (KF). In power system, there is a possibility of multiple time delays. This paper also focuses on developing Interacting Multiple Model(IMM) Algorithm with multiple model space using Kalman Filter(KF) as state estimator tool. The multiple time delays in power system is considered as multiple model space The result shows that KF provides better estimate of correct model for a particular inputset. The qualitative properties of Riccati difference equation(RDE) in terms of state error covariance of IMMKF are also analyzed and presented.


2021 ◽  
pp. 42-53
Author(s):  
Patrick P. K. Chan ◽  
Yaxuan Wang ◽  
Natasha Kees ◽  
Daniel S. Yeung

2019 ◽  
Author(s):  
Γεωργία Χαλβατζάκη

Η ακριβής παρακολούθηση της ανθρώπινης βάδισης αποτελεί σημαντική συνιστώσα για διάφορες ρομποτικές εφαρμογές, όπως οι ρομποτικές πλατφόρμες κινητικής υποβοήθησης με στόχο την παροχή βοήθειας σε ασθενείς με μειωμένη κινητικότητα (mobility assistive robots), οι επονομαζόμενοι κοινωνικοί ρομποτικοί βοηθοί (social robot assistants), κ.α. Μια αρχιτεκτονική ρομποτικού ελέγχου με επίγνωση του περιβάλλοντος απαιτεί ακριβή και αξιόπιστη γνώση της κινητικής κατάστασης του χρήστη σε πραγματικό χρόνο, ώστε να αξιολογείται συνεχώς το επίπεδο της βάδισης του ασθενούς και να προσαρμόζεται η κίνηση του ρομπότ κατάλληλα με στόχο τη βέλτιστη παροχή βοήθειας και υποστήριξης. Σε αυτήν την κατεύθυνση, η παρούσα διατριβή πραγματεύεται θέματα παρακολούθησης της ανθρώπινης βάδισης, και ειδικά της κίνησης των ποδιών ενός χρήστη σε συνεχή και δυναμική διάδραση με ενσωματωμένη ρομποτική πλατφόρμα υποβοήθησης κινητικότητας. Πιο συγκεκριμένα, στο πρώτο στάδιο της διατριβής μελετήθηκε μεθοδολογία παρακολούθησης ανθρώπινης βάδισης με χρήση Φίλτρου Kalman και K-means συσταδοποίησης, καθώς και μεθοδολογίες που χρησιμοποιούν Φίλτρα Σωματιδίων (Particle Filters - PFs) βάσει Ακολουθιακής Επαναδειγματοληψίας Σημαντικότητας (Sequential Importance Resampling - SIR). Στη συνέχεια, αναπτύχθηκε μια νέα μεθοδολογία παρακολούθησης με χρήση ενός PF επαυξημένου μέσω πιθανοτικής συσχέτισης δεδομένων (probabilistic data association - PDA). Παράλληλα, αναπτύχθηκαν μεθοδολογίες για την ανάλυση της ανθρώπινης βάδισης με την εξαγωγή χωροχρονικών παραμέτρων, οι οποίες χρησιμεύουν στην κλινική διάγνωση χαρακτηριστικών παθολογικής βάδισης. Στο επόμενο στάδιο της διατριβής, αναπτύχθηκε μια νέα προσέγγιση παρακολούθησης της ανθρώπινης βάδισης που χρησιμοποιεί δύο PFs με PDA σε ένα πρωτότυπο σχήμα αλληλεπιδραστικού πολλαπλού μοντέλου (Interacting Multiple Model - IMM). Στόχος της μεθοδολογίας αυτής αποτελεί η επιλογή σε πραγματικό χρόνο του κατάλληλου μοντέλου κίνησης σύμφωνα με την ανάλυση της ανθρώπινης βάδισης και τη χρήση του αλγορίθμου Viterbi για μια επαυξημένη εκτίμηση της κατάστασης της ανθρώπινης βάδισης. Η εκτιμώμενη κατάσταση βάδισης επίσης αλληλεπιδρά με το IMM ως μια πρότερη πληροφορία που οδηγεί τη διαδικασία της μαρκοβιανής δειγματοληψίας, ενώ το PDA εξασφαλίζει ότι παρακολουθούνται τα πόδια του ίδιου ανθρώπου-χρήστη. Τα δεδομένα παρατήρησης προέρχονται από έναν ανιχνευτή λέιζερ (laser range finder - LRF), ο οποίος είναι τοποθετημένος επάνω στη ρομποτική πλατφόρμα κινητικής υποβοήθησης. Στο πλαίσιο της παρούσας διατριβής, εκπονήθηκε μια λεπτομερής πειραματική ανάλυση και αξιολόγηση του προτεινόμενου αλγορίθμου χρησιμοποιώντας δεδομένα αληθείας (ground truth) από ένα σύστημα καταγραφής κίνησης (motion capturing), που χρησιμοποιήθηκε σε πραγματικά πειράματα με ηλικιωμένα άτομα που παρουσίαζαν διάφορες κινητικές δυσλειτουργίες. Για την πειραματική επαλήθευση της προτεινόμενης μεθοδολογίας, υπολογίσθηκε η ακρίβεια του αλγορίθμου, αλλά και η ευρωστία του σε περιπτώσεις θορύβου και ανυπαρξίας δεδομένων παρατήρησης, καθώς και η επιτυχία του ως προς την ταξινόμηση της κατάσταση βάδισης, ελέγχοντας την επίδραση διαφορετικού αριθμού δειγμάτων στα PFs. Τα αποτελέσματα για τα ηλικιωμένα άτομα δείχνουν τις δυνατότητες που παρέχει το προτεινόμενο πλαίσιο μεθοδολογίας για εφαρμογή σε πραγματικό χρόνο, λόγω της αποτελεσματικότητάς του ως προς την παροχή ακριβών και αξιόπιστων εκτιμήσεων για την επαυξημένη κατάσταση βάδισης του ανθρώπου με χρήση μικρού αριθμού δειγμάτων στα στοχαστικά φίλτρα εκτίμησης. Εν συνεχεία, η ερευνητική εργασία επικεντρώθηκε στη μελέτη της ευστάθειας κατά τη βάδιση και την αντίστοιχη ανάπτυξη ενός δικτύου βαθιάς μάθησης με χρήση αναδρομικών νευρωνικών δικτύων για την πρόβλεψη της ευστάθειας βάδισης ως ασφαλούς ή επίφοβης για πτώση βάδισης, με χρήση πολυτροπικής πληροφορίας από δεδομένα κάμερας και λέιζερ. Τελική συνεισφορά της παρούσας διατριβής αποτελεί η μελέτη και ανάπτυξη διαφόρων στρατηγικών ελέγχου για τη ρομποτική πλατφόρμα υποβοήθησης με χρήση ανθρωποκεντρικής πληροφορίας σχετικά με την κινητική κατάσταση του εκάστοτε χρήστη. Αρχικά μελετήθηκε και υλοποιήθηκε μια στρατηγική ελέγχου για τον σχηματισμό ανθρώπου-ρομπότ με την ανάπτυξη ενός κινηματικού ελεγκτή που λαμβάνει υπόψη την κινηματική κατηγοριοποίηση του χρήστη προκειμένου να προσαρμόζονται οι βέλτιστες παράμετροι του ελεγκτή σε σχέση με την απόσταση και τον προσανατολισμό του σχήματος άνθρωπος-ρομπότ. Παρά το γεγονός ότι μια τέτοια σχεδίαση είχε καλά αποτελέσματα σε ευθεία πορεία, δεν ήταν δυνατόν να προσαρμόζεται σε πιο σύνθετες κινήσεις που περιλάμβαναν επίσης στροφές. Για το λόγο αυτό, η παρούσα διατριβή ολοκληρώνεται με την παρουσίαση, ανάλυση και υλοποίηση μιας μεθόδου ενισχυτικής μάθησης (reinforcement learning), η οποία ενσωματώνει και ένα βαθύ νευρωνικό δίκτυο για την πρόβλεψη της πρόθεσης κίνησης του ατόμου. Στόχος είναι η εκμάθηση μιας πολιτικής ελέγχου για τον ρομποτικό βοηθό ώστε να προσαρμόζεται στην κινητική κατάσταση και τις προθέσεις του εκάστοτε χρήστη. Εκτενής πειραματική ανάλυση αποδεικνύει την αποτελεσματικότητα της προτεινόμενης μεθόδου σε σχέση με βασικές μεθόδους ελέγχου, αναδεικνύοντας τη δυνατότητα χρήσης της προτεινόμενης μεθοδολογίας ως ικανής ανθρωποκεντρικής στρατηγικής λήψης αποφάσεων για την κίνηση του ρομποτικού βοηθού με προσαρμογή στον εκάστοτε χρήστη.


Aerospace ◽  
2021 ◽  
Vol 8 (9) ◽  
pp. 258
Author(s):  
Daichi Wada ◽  
Sergio A. Araujo-Estrada ◽  
Shane Windsor

Nonlinear flight controllers for fixed-wing unmanned aerial vehicles (UAVs) can potentially be developed using deep reinforcement learning. However, there is often a reality gap between the simulation models used to train these controllers and the real world. This study experimentally investigated the application of deep reinforcement learning to the pitch control of a UAV in wind tunnel tests, with a particular focus of investigating the effect of time delays on flight controller performance. Multiple neural networks were trained in simulation with different assumed time delays and then wind tunnel tested. The neural networks trained with shorter delays tended to be susceptible to delay in the real tests and produce fluctuating behaviour. The neural networks trained with longer delays behaved more conservatively and did not produce oscillations but suffered steady state errors under some conditions due to unmodeled frictional effects. These results highlight the importance of performing physical experiments to validate controller performance and how the training approach used with reinforcement learning needs to be robust to reality gaps between simulation and the real world.


Sign in / Sign up

Export Citation Format

Share Document