Η Κοινωνική Μάθηση (Social Learning) αποτελεί μια νέα, σημαντική περιοχή έρευνας στον τομέα της Τεχνητής Νοημοσύνης (Artificial Intelligence) και συγκεκριμένα στην μελέτη των μηχανισμών μάθησης των πολυπρακτορικών συστημάτων (Multi-Agent Systems) παιχνιδιού. Επίσης, θεωρείτε ένας σημαντικός άξονας μελέτης και εφαρμογών για διάφορους επιστημονικούς τομείς, όπως η κοινωνιολογία, η οικονομία και το μάρκετινγκ. Οι κοινωνικοί οργανισμοί (Social Organizations), βασιζόμενοι στα συστήματα προσομοίωσης με πράκτορες, καθώς και η μελέτη/διερεύνηση των στρατηγικών/τεχνικών εκπαίδευσης και μάθησης των πρακτόρων, εμπνεύστηκαν από την ικανότητα των ανθρώπων να μαθαίνουν από κοινωνικά περιβάλλοντα που είναι πλούσια σε κρυφές πληροφορίες και σε αλληλεπιδράσεις μεταξύ οντοτήτων (π.χ. ανθρώπων). Αυτός ο πλούτος του περιβάλλοντος, είναι μια πηγή πολυπλοκότητας όπου ένας μαθητευόμενος πρέπει να μπορεί να πλοηγηθεί ορθά και αποτελεσματικά σύμφωνα με τον στόχο του. Η εισαγωγή της κοινωνικής δυναμικής στα πολυπρακτορικά περιβάλλοντα, θεωρείται ως μια πολλά υποσχόμενη προσέγγιση για την προσομοίωση ρεαλιστικών συμπεριφορών παιχνιδιού, συμπεριφορές που μοιάζουν με ανθρώπινες, καθώς και για την ανάδειξη της σημαντικότητας της Συλλογικής Γνώσης (Collective Knowledge).Η διατριβή αυτή, στοχεύει στην έρευνα της απόδοσης των συνθετικών πρακτόρων (Synthetic Agents) σε σενάρια μάθησης και παιξίματος σε παιχνίδια στρατηγικής με μηδενικό άθροισμα (Zero-Sum). Επίσης, αναδεικνύουμε την σημαντικότητα και την ικανότητα των μοντέλων μάθησης με βάση τον αντίπαλο (Opponent Based Learning), που παρουσιάζουν τα ανταγωνιστικά κοινωνικά περιβάλλοντα με στόχο την αποδοτικότερη μάθηση και παίξιμο ενός πράκτορα.Οι συνθετικοί πράκτορες σχεδιάστηκαν και αναπτύχθηκαν με βάση διάφορους συνδυασμούς κάποιων βασικών παραμέτρων μάθησης, όπως η επιλογή μεταξύ εξερεύνησης και εκμετάλλευσης γνώσης, ταχύτητα μάθησης κ.α.. Στη συνέχεια, οι συνθετικοί πράκτορες αλληλεπιδρούν σε μεγάλους αριθμούς παιχνιδιών και τα πειραματικά δεδομένα αναλύονται για τον προσδιορισμό των ομαδοποιήσεων τους, που παρουσιάζουν σημαντικές συσχετίσεις μεταξύ των παραμέτρων μάθησης και την τελική κατάταξη των επιδόσεων τους.Επιπλέον, εξετάζουμε πώς οι συνθετικοί πράκτορες αλληλεπιδρούν σε κοινωνικά περιβάλλοντα, χρησιμοποιώντας διάφορες στρατηγικές εκπαίδευσης εναντίον διαφόρων αντιπάλων (πράκτορες με διαφορετικά χαρακτηριστικά μάθησης και παιξίματος). Αυτός ο πειραματισμός εκπαίδευσης και παιξίματος, αναδεικνύει πως η ποιότητα του παιξίματος εξαρτάται περισσότερο από τη ορθή παραμετροποίηση του μηχανισμού μάθησης παρά από την εμπειρία.Εξετάζουμε επίσης, την πρόοδο/εξέλιξη της μάθησης των άπειρων πρακτόρων σε κοινωνικά περιβάλλοντα ανταγωνιστικών παιχνιδιών, στοχεύοντας στον προσδιορισμό της επίδρασης ενός έμπειρου αντιπάλου σε έναν αρχάριο πράκτορα. Η διερεύνηση των επιπτώσεων της πολυπλοκότητας του περιβάλλοντος στη συμπεριφορά παιξίματος και μάθησης των συνθετικών πρακτόρων, αναδεικνύει τον τρόπο με τον οποίο ένας αποτελεσματικός παίκτης πρέπει να προσαρμόσει το προφίλ μάθησης και παιξίματος του, για να διατηρήσει ένα συγκεκριμένο προφίλ απόδοσης, όταν η πολυπλοκότητα τους κοινωνικού περιβαλλοντικές μεταβάλλεται.Για την επιβεβαίωση των πειραμάτων αποτελεσμάτων, διεξάγουμε μια αξιολόγηση, μεγάλης κλίμακας, των υπαρχουσών μεθόδων αξιολόγησης της επίδοσης των παικτών (Elo και Glicko), εφαρμοσμένες σε πολυπρακτορικά συστήματα, όπου τονίζεται μια ασυνέπεια (ασυμφωνία) ως προς τον τρόπο με τον οποίο οι προαναφερθέν μέθοδοι αξιολογούν της επιδόσεις των συνθετικών πρακτόρων. Στην συνέχεια, προτείνουμε μία νέα προσέγγιση αξιολόγησης της επίδοσης των πρακτόρων. Η προσέγγιση αυτή, μπορεί να θεωρηθεί ως βάση για την ανάπτυξη μεθόδων αξιολόγησης της επίδοσης παικτών για πολυπρακτορικά συστήματα. Με ένα μεγάλο αριθμό πειραμάτων αποδεικνύεται η αποτελεσματικότητά της προσέγγισης που προτάχθηκε.Επίσης, στα πλαίσια της διατριβής αυτής, παρουσιάζεται μία μέθοδος επιλογής αντιπάλου από μία ομάδα διαφορετικών πρακτόρων, με σκοπό την αποτελεσματικότερη μάθηση και παίξιμο. Μελετήθηκε ένας συνθετικός πράκτορας (με προφίλ καλού παίκτη) όπου πειραματίζεται σε παιχνίδια στρατηγικής με διάφορες αλληλουχίες διαφορετικών αντιπάλων (πράκτορες με διαφορετικά χαρακτηριστικά παιξίματος και επιδόσεις) για τον προσδιορισμό της αλληλουχίας που θα του προσφέρει την "αποτελεσματικότερη μάθησης". Τα αποτελέσματα των πειραμάτων, δείχνουν ότι η αποτελεσματικότερη πρόοδος και η σταθερότερη εξέλιξη ενός πράκτορα, προκύπτει όταν αυτός αντιμετωπίζει αρχικά αντιπάλους με χειρότερο προφίλ παιξίματος από το δικό του και σταδιακά επιλέγει αντιπάλους με καλύτερο προφίλ παιξίματος. Επίσης, οι μελέτες δείχνουν πως ένας συνθετικός πράκτορας με σωστά διαμορφωμένο/παραμετροποιημένο μηχανισμό μάθησης αποδίδει καλύτερα όταν αντιμετωπίζει λιγότερο ευνοϊκά διαμορφωμένους πράκτορες.Η προσομοίωση των κοινωνικών περιβαλλόντων, όπως στα προαναφερθέντα πειράματα, απαιτεί τεράστιους υπολογιστικούς πόρους. Για τον λόγο αυτό τα πειράματα της διατριβής αυτής διαχειρίστηκαν μέσω κατανεμημένων ή υψηλής απόδοσης υπολογιστικών υποδομών, όπως οι υποδομές του HellasGrid. Για το σκοπό αυτό, η διατριβή αυτή, παρουσιάζει μια νέα πλατφόρμα με διάφορες καινοτομίες για την τμηματοποίηση και τη διαχείριση των πειραμάτων κοινωνικής προσομοίωσης, πολυπρακτορικά συστήματα παιχνιδιών. Η πλατφόρμα αυτή, διαχειρίζεται μέσω ενός διαδικτυακού γραφικού περιβάλλοντος χρήστη, συνδυάζοντας τα πλεονεκτήματα των υπολογιστικών υποδομών υψηλής απόδοσης (HellasGrid), του δυναμικού ενδιάμεσου λογισμικού τους (Middleware) και των εξελιγμένων συστημάτων ροής εργασίας, με τρόπο που ορισμένες γενικές λειτουργίες θυσιάζονται προς όφελος της απόκτησης μιας ομαλής και σταθερής εξέλιξης των κατανεμημένων υπο-πειραμάτων, χωρίς να διακυβεύεται η ασφάλεια όλων των συστημάτων. Τέλος, η πλατφόρμα αυτή μπορεί να χρησιμοποιηθεί από ερευνητές του τομέα της μηχανικής μάθησης, για να πειραματιστούν με τα δικά τους παιχνίδια, μηδενικού αθροίσματος και τους δικούς τους μηχανισμού μάθησης πρακτόρων.