Two-player zero-sum games for leader-follower consensus of linear multi-agent systems with unknown dynamics

Author(s):  
Chunbin Qin ◽  
Hui Chen ◽  
Jun Wang ◽  
Dehua Zhang ◽  
Yingchun Wang ◽  
...  

Automatica ◽  
2016 ◽  
Vol 73 ◽  
pp. 200-206 ◽  
Author(s):  
Jingying Ma ◽  
Yuanshi Zheng ◽  
Bin Wu ◽  
Long Wang


Author(s):  
Fengchen Wang ◽  
Yan Chen

Abstract Considering the application of flocking control on connected and automated vehicle (CAV) systems, the persistent interactions between CAVs (flocking agents) and road boundaries (permanent obstacles) are critical, due to flocking behaviors in a strictly confined environment. However, the existing flocking theories attempt to model and animate natural flocks by only considering temporary obstacles, which only describe interactions between agents and obstacles that will eventually disappear during flocking. This paper proposes a novel flocking control algorithm to extend existing flocking theories and guarantee the desired flocking coordination of multi-agent systems (e.g., CAV systems) with permanent obstacles (constraints). By analyzing comprehensive behaviors of flocks via Hamiltonian functions, a zero-sum obstacle condition is developed to ensure the satisfaction of permanent obstacle avoidance. Then, an additional control term representing the resultant forces of permanent obstacles is introduced to tackle interactions between agents and permanent obstacles. Demonstrated and compared through simulation results, a CAV system steered by the proposed flocking control protocol can successfully achieve the desired flocking behaviors with permanent obstacles avoidance in a three-lane traffic environment, which is failed by existing flocking control theories solely considering temporary obstacles.



2017 ◽  
Author(s):  
Χαϊρή Κιουρτ

Η Κοινωνική Μάθηση (Social Learning) αποτελεί μια νέα, σημαντική περιοχή έρευνας στον τομέα της Τεχνητής Νοημοσύνης (Artificial Intelligence) και συγκεκριμένα στην μελέτη των μηχανισμών μάθησης των πολυπρακτορικών συστημάτων (Multi-Agent Systems) παιχνιδιού. Επίσης, θεωρείτε ένας σημαντικός άξονας μελέτης και εφαρμογών για διάφορους επιστημονικούς τομείς, όπως η κοινωνιολογία, η οικονομία και το μάρκετινγκ. Οι κοινωνικοί οργανισμοί (Social Organizations), βασιζόμενοι στα συστήματα προσομοίωσης με πράκτορες, καθώς και η μελέτη/διερεύνηση των στρατηγικών/τεχνικών εκπαίδευσης και μάθησης των πρακτόρων, εμπνεύστηκαν από την ικανότητα των ανθρώπων να μαθαίνουν από κοινωνικά περιβάλλοντα που είναι πλούσια σε κρυφές πληροφορίες και σε αλληλεπιδράσεις μεταξύ οντοτήτων (π.χ. ανθρώπων). Αυτός ο πλούτος του περιβάλλοντος, είναι μια πηγή πολυπλοκότητας όπου ένας μαθητευόμενος πρέπει να μπορεί να πλοηγηθεί ορθά και αποτελεσματικά σύμφωνα με τον στόχο του. Η εισαγωγή της κοινωνικής δυναμικής στα πολυπρακτορικά περιβάλλοντα, θεωρείται ως μια πολλά υποσχόμενη προσέγγιση για την προσομοίωση ρεαλιστικών συμπεριφορών παιχνιδιού, συμπεριφορές που μοιάζουν με ανθρώπινες, καθώς και για την ανάδειξη της σημαντικότητας της Συλλογικής Γνώσης (Collective Knowledge).Η διατριβή αυτή, στοχεύει στην έρευνα της απόδοσης των συνθετικών πρακτόρων (Synthetic Agents) σε σενάρια μάθησης και παιξίματος σε παιχνίδια στρατηγικής με μηδενικό άθροισμα (Zero-Sum). Επίσης, αναδεικνύουμε την σημαντικότητα και την ικανότητα των μοντέλων μάθησης με βάση τον αντίπαλο (Opponent Based Learning), που παρουσιάζουν τα ανταγωνιστικά κοινωνικά περιβάλλοντα με στόχο την αποδοτικότερη μάθηση και παίξιμο ενός πράκτορα.Οι συνθετικοί πράκτορες σχεδιάστηκαν και αναπτύχθηκαν με βάση διάφορους συνδυασμούς κάποιων βασικών παραμέτρων μάθησης, όπως η επιλογή μεταξύ εξερεύνησης και εκμετάλλευσης γνώσης, ταχύτητα μάθησης κ.α.. Στη συνέχεια, οι συνθετικοί πράκτορες αλληλεπιδρούν σε μεγάλους αριθμούς παιχνιδιών και τα πειραματικά δεδομένα αναλύονται για τον προσδιορισμό των ομαδοποιήσεων τους, που παρουσιάζουν σημαντικές συσχετίσεις μεταξύ των παραμέτρων μάθησης και την τελική κατάταξη των επιδόσεων τους.Επιπλέον, εξετάζουμε πώς οι συνθετικοί πράκτορες αλληλεπιδρούν σε κοινωνικά περιβάλλοντα, χρησιμοποιώντας διάφορες στρατηγικές εκπαίδευσης εναντίον διαφόρων αντιπάλων (πράκτορες με διαφορετικά χαρακτηριστικά μάθησης και παιξίματος). Αυτός ο πειραματισμός εκπαίδευσης και παιξίματος, αναδεικνύει πως η ποιότητα του παιξίματος εξαρτάται περισσότερο από τη ορθή παραμετροποίηση του μηχανισμού μάθησης παρά από την εμπειρία.Εξετάζουμε επίσης, την πρόοδο/εξέλιξη της μάθησης των άπειρων πρακτόρων σε κοινωνικά περιβάλλοντα ανταγωνιστικών παιχνιδιών, στοχεύοντας στον προσδιορισμό της επίδρασης ενός έμπειρου αντιπάλου σε έναν αρχάριο πράκτορα. Η διερεύνηση των επιπτώσεων της πολυπλοκότητας του περιβάλλοντος στη συμπεριφορά παιξίματος και μάθησης των συνθετικών πρακτόρων, αναδεικνύει τον τρόπο με τον οποίο ένας αποτελεσματικός παίκτης πρέπει να προσαρμόσει το προφίλ μάθησης και παιξίματος του, για να διατηρήσει ένα συγκεκριμένο προφίλ απόδοσης, όταν η πολυπλοκότητα τους κοινωνικού περιβαλλοντικές μεταβάλλεται.Για την επιβεβαίωση των πειραμάτων αποτελεσμάτων, διεξάγουμε μια αξιολόγηση, μεγάλης κλίμακας, των υπαρχουσών μεθόδων αξιολόγησης της επίδοσης των παικτών (Elo και Glicko), εφαρμοσμένες σε πολυπρακτορικά συστήματα, όπου τονίζεται μια ασυνέπεια (ασυμφωνία) ως προς τον τρόπο με τον οποίο οι προαναφερθέν μέθοδοι αξιολογούν της επιδόσεις των συνθετικών πρακτόρων. Στην συνέχεια, προτείνουμε μία νέα προσέγγιση αξιολόγησης της επίδοσης των πρακτόρων. Η προσέγγιση αυτή, μπορεί να θεωρηθεί ως βάση για την ανάπτυξη μεθόδων αξιολόγησης της επίδοσης παικτών για πολυπρακτορικά συστήματα. Με ένα μεγάλο αριθμό πειραμάτων αποδεικνύεται η αποτελεσματικότητά της προσέγγισης που προτάχθηκε.Επίσης, στα πλαίσια της διατριβής αυτής, παρουσιάζεται μία μέθοδος επιλογής αντιπάλου από μία ομάδα διαφορετικών πρακτόρων, με σκοπό την αποτελεσματικότερη μάθηση και παίξιμο. Μελετήθηκε ένας συνθετικός πράκτορας (με προφίλ καλού παίκτη) όπου πειραματίζεται σε παιχνίδια στρατηγικής με διάφορες αλληλουχίες διαφορετικών αντιπάλων (πράκτορες με διαφορετικά χαρακτηριστικά παιξίματος και επιδόσεις) για τον προσδιορισμό της αλληλουχίας που θα του προσφέρει την "αποτελεσματικότερη μάθησης". Τα αποτελέσματα των πειραμάτων, δείχνουν ότι η αποτελεσματικότερη πρόοδος και η σταθερότερη εξέλιξη ενός πράκτορα, προκύπτει όταν αυτός αντιμετωπίζει αρχικά αντιπάλους με χειρότερο προφίλ παιξίματος από το δικό του και σταδιακά επιλέγει αντιπάλους με καλύτερο προφίλ παιξίματος. Επίσης, οι μελέτες δείχνουν πως ένας συνθετικός πράκτορας με σωστά διαμορφωμένο/παραμετροποιημένο μηχανισμό μάθησης αποδίδει καλύτερα όταν αντιμετωπίζει λιγότερο ευνοϊκά διαμορφωμένους πράκτορες.Η προσομοίωση των κοινωνικών περιβαλλόντων, όπως στα προαναφερθέντα πειράματα, απαιτεί τεράστιους υπολογιστικούς πόρους. Για τον λόγο αυτό τα πειράματα της διατριβής αυτής διαχειρίστηκαν μέσω κατανεμημένων ή υψηλής απόδοσης υπολογιστικών υποδομών, όπως οι υποδομές του HellasGrid. Για το σκοπό αυτό, η διατριβή αυτή, παρουσιάζει μια νέα πλατφόρμα με διάφορες καινοτομίες για την τμηματοποίηση και τη διαχείριση των πειραμάτων κοινωνικής προσομοίωσης, πολυπρακτορικά συστήματα παιχνιδιών. Η πλατφόρμα αυτή, διαχειρίζεται μέσω ενός διαδικτυακού γραφικού περιβάλλοντος χρήστη, συνδυάζοντας τα πλεονεκτήματα των υπολογιστικών υποδομών υψηλής απόδοσης (HellasGrid), του δυναμικού ενδιάμεσου λογισμικού τους (Middleware) και των εξελιγμένων συστημάτων ροής εργασίας, με τρόπο που ορισμένες γενικές λειτουργίες θυσιάζονται προς όφελος της απόκτησης μιας ομαλής και σταθερής εξέλιξης των κατανεμημένων υπο-πειραμάτων, χωρίς να διακυβεύεται η ασφάλεια όλων των συστημάτων. Τέλος, η πλατφόρμα αυτή μπορεί να χρησιμοποιηθεί από ερευνητές του τομέα της μηχανικής μάθησης, για να πειραματιστούν με τα δικά τους παιχνίδια, μηδενικού αθροίσματος και τους δικούς τους μηχανισμού μάθησης πρακτόρων.



2015 ◽  
Vol 10 (8) ◽  
pp. 845 ◽  
Author(s):  
Youness Chaabi ◽  
R. Messoussi ◽  
V. Hilaire ◽  
Y. Ruichek ◽  
K. Lekdioui ◽  
...  


Sign in / Sign up

Export Citation Format

Share Document