Neural Approximate Dynamic Programming for On-Demand Ride-Pooling

On-demand ride-pooling (e.g., UberPool, LyftLine, GrabShare) has recently become popular because of its ability to lower costs for passengers while simultaneously increasing revenue for drivers and aggregation companies (e.g., Uber). Unlike in Taxi on Demand (ToD) services – where a vehicle is assigned one passenger at a time – in on-demand ride-pooling, each vehicle must simultaneously serve multiple passengers with heterogeneous origin and destination pairs without violating any quality constraints. To ensure near real-time response, existing solutions to the real-time ride-pooling problem are myopic in that they optimise the objective (e.g., maximise the number of passengers served) for the current time step without considering the effect such an assignment could have on assignments in future time steps. However, considering the future effects of an assignment that also has to consider what combinations of passenger requests can be assigned to vehicles adds a layer of combinatorial complexity to the already challenging problem of considering future effects in the ToD case.A popular approach that addresses the limitations of myopic assignments in ToD problems is Approximate Dynamic Programming (ADP). Existing ADP methods for ToD can only handle Linear Program (LP) based assignments, however, as the value update relies on dual values from the LP. The assignment problem in ride pooling requires an Integer Linear Program (ILP) that has bad LP relaxations. Therefore, our key technical contribution is in providing a general ADP method that can learn from the ILP based assignment found in ride-pooling. Additionally, we handle the extra combinatorial complexity from combinations of passenger requests by using a Neural Network based approximate value function and show a connection to Deep Reinforcement Learning that allows us to learn this value-function with increased stability and sample-efficiency. We show that our approach easily outperforms leading approaches for on-demand ride-pooling on a real-world dataset by up to 16%, a significant improvement in city-scale transportation problems.

Download Full-text

A Linear Approximation of the Value Function of an Approximate Dynamic Programming Approach for the Ship Scheduling Problem

Lecture Notes in Computer Science - Learning and Intelligent Optimization ◽

10.1007/978-3-642-13800-3_14 ◽

2010 ◽

pp. 184-187

Author(s):

Kazuhiro Kobayashi

Keyword(s):

Dynamic Programming ◽

Linear Approximation ◽

Value Function ◽

Approximate Dynamic Programming ◽

Programming Approach ◽

Scheduling Problem ◽

Dynamic Programming Approach ◽

Ship Scheduling ◽

The Value Function

Download Full-text

An Integrated Decomposition and Approximate Dynamic Programming Approach for On-Demand Ride Pooling

IEEE Transactions on Intelligent Transportation Systems ◽

10.1109/tits.2019.2934423 ◽

2020 ◽

Vol 21 (9) ◽

pp. 3811-3820

Author(s):

Xian Yu ◽

Siqian Shen

Keyword(s):

Dynamic Programming ◽

Approximate Dynamic Programming ◽

Programming Approach ◽

Dynamic Programming Approach ◽

On Demand

Download Full-text

Optimal Hour-Ahead Bidding in the Real-Time Electricity Market with Battery Storage Using Approximate Dynamic Programming

INFORMS Journal on Computing ◽

10.1287/ijoc.2015.0640 ◽

2015 ◽

Vol 27 (3) ◽

pp. 525-543 ◽

Cited By ~ 29

Author(s):

Daniel R. Jiang ◽

Warren B. Powell

Keyword(s):

Dynamic Programming ◽

Real Time ◽

Electricity Market ◽

Approximate Dynamic Programming ◽

Battery Storage ◽

The Real

Download Full-text

Risk-averse real-time dispatch of integrated electricity and heat system using a modified approximate dynamic programming approach

Energy ◽

10.1016/j.energy.2020.117347 ◽

2020 ◽

Vol 198 ◽

pp. 117347 ◽

Cited By ~ 1

Author(s):

Zhenning Pan ◽

Tao Yu ◽

Jie Li ◽

Kaiping Qu ◽

Bo Yang

Keyword(s):

Dynamic Programming ◽

Real Time ◽

Approximate Dynamic Programming ◽

Programming Approach ◽

Risk Averse ◽

Dynamic Programming Approach ◽

Heat System

Download Full-text

Approximate Dynamic Programming via a Smoothed Linear Program

Operations Research ◽

10.1287/opre.1120.1044 ◽

2012 ◽

Vol 60 (3) ◽

pp. 655-674 ◽

Cited By ~ 22

Author(s):

Vijay V. Desai ◽

Vivek F. Farias ◽

Ciamac C. Moallemi

Keyword(s):

Dynamic Programming ◽

Approximate Dynamic Programming ◽

Linear Program

Download Full-text

The Long-Term Optimization Model of Pumped-Hydro Power Storage System Based on Approximate Dynamic Programming

E3S Web of Conferences ◽

10.1051/e3sconf/202125602005 ◽

2021 ◽

Vol 256 ◽

pp. 02005

Author(s):

Zhencheng Liang ◽

Ling Li ◽

Yiming Li ◽

Pan Zhang ◽

Cuiyun Luo

Keyword(s):

Dynamic Programming ◽

Decision Model ◽

Value Function ◽

Approximate Dynamic Programming ◽

Power Station ◽

Hydro Power ◽

Term Operation ◽

Power Storage ◽

Pumped Storage

Based on the hypothesis that pumped storage power station is available for multi-day optimization and adjustment, the paper has proposed a long-term operation optimization model of pumped-hydro power storage (PHPS) system based on approximate dynamic programming (ADP). In this multistage decision model, across the stages, value function approximation (VFA) of the reservoir energy storage was used to keep the overall optimization characteristics; during the stages, generated energy & generating periods, and electricity consumption for pumping & pumping periods are used as decision variables to conduct daily optimization operation. The paper got the approximate optimal solution through iteration solution decision variable and value function so as to avoid “curse of dimensionality” in conventional multistage decision model. According to the experiment, the ADP-based model can accurately describe the long-term operation modes of pumped storage power station, and its calculation methods are more appropriate for this kind of large-scale optimized decision problem than conventional mathematic planning methods.

Download Full-text

Real-time stochastic optimal scheduling of large-scale electric vehicles: A multidimensional approximate dynamic programming approach

International Journal of Electrical Power & Energy Systems ◽

10.1016/j.ijepes.2019.105542 ◽

2020 ◽

Vol 116 ◽

pp. 105542 ◽

Cited By ~ 4

Author(s):

Z.N. Pan ◽

T. Yu ◽

L.P. Chen ◽

B. Yang ◽

B. Wang ◽

...

Keyword(s):

Dynamic Programming ◽

Real Time ◽

Electric Vehicles ◽

Large Scale ◽

Approximate Dynamic Programming ◽

Optimal Scheduling ◽

Programming Approach ◽

Dynamic Programming Approach

Download Full-text

A Cost-Shaping Linear Program for Average-Cost Approximate Dynamic Programming with Performance Guarantees

Mathematics of Operations Research ◽

10.1287/moor.1060.0208 ◽

2006 ◽

Vol 31 (3) ◽

pp. 597-620 ◽

Cited By ~ 24

Author(s):

Daniela Pucci de Farias ◽

Benjamin Van Roy

Keyword(s):

Dynamic Programming ◽

Average Cost ◽

Approximate Dynamic Programming ◽

Linear Program ◽

Performance Guarantees

Download Full-text

Machine learning for intelligent agents

10.12681/eadd/39222 ◽

2015 ◽

Author(s):

Νικόλαος Τζιωρτζιώτης

Keyword(s):

Machine Learning ◽

Dynamic Programming ◽

Reinforcement Learning ◽

Intelligent Agents ◽

Value Function ◽

Approximate Dynamic Programming ◽

Piecewise Linear ◽

Relevance Vector Machine ◽

Temporal Difference ◽

Bayesian Reinforcement Learning

Η παρούσα διατριβή πραγματεύεται το πρόβλημα της ανάπτυξης ευφυών πρακτόρων, οι οποίοι έχουν την ικανότητα να αποκτούν δεξιότητες αυτόνομα. Ένας ευφυής πράκτορας δρα σε ένα άγνωστο περιβάλλον, κατευθυνόμενος προς την επίτευξη ενός συγκεκριμένου στόχου. Μέσω της αλληλεπίδρασης του με το περιβάλλον, ο πράκτορας λαμβάνει ένα τεράστιο όγκο πληροφοριών, που του δίνει τη δυνατότητα να αντιλαμβάνεται της συνέπειες των ενεργειών του, προσαρμόζοντας ανάλογα τη συμπεριφορά του. Στο πλαίσιο αυτό, η διατριβή επικεντρώνεται στην παρουσίαση μεθόδων Μηχανικής Μάθησης για την ανάπτυξη ευφυών πρακτόρων, εστιάζοντας σε τρεις βασικούς θεματικούς άξονες: α) προσεγγιστική ενισχυτική μάθηση, όπου η πολιτική του πράκτορα εκτιμάται και βελτιώνεται μέσω της προσέγγισης της συνάρτησης αξίας (Value Function), β) Μπεϋζιανή ενισχυτική μάθηση, όπου το πρόβλημα της ενισχυτικής μάθησης μοντελοποιείται ως ένα θεωρητικό πρόβλημα απόφασης, τοποθετώντας μια εκ των προτέρων κατανομή στο σύνολο των πιθανών Μαρκοβιανών Διαδικασιών Απόφασης (ΜΔΑ), και γ) Τεχνητή Νοημοσύνη σε Παίγνια, τα οποία αποτελούν δελεαστικά προβλήματα για την ανάπτυξη και μελέτη μεθοδολογιών μηχανικής μάθησης.Το πρώτο μέρος της διατριβής εστιάζει στο πρόβλημα της προσέγγισης της συνάρτησης αξίας, παρουσιάζοντας δυο διαφορετικές μεθοδολογίες. Αρχικά, προτείνουμε τη μέθοδο Relevance Vector Machine Temporal Difference (RVMTD), η οποία αποτελεί μια προηγμένη Μπεϋζιανή μεθοδολογία πυρήνων για την προσέγγιση της συνάρτησης αξίας, εφαρμόζοντας το μοντέλο παλινδρόμησης RVM. Η βασική ιδέα της προτεινόμενης μεθόδου είναι ο μετασχηματισμός του προβλήματος της εκτίμησης μιας πολιτικής σε ένα πρόβλημα παλινδρόμησης. Προκειμένου ο αλγόριθμος RVMTD να καταστεί εφαρμόσιμος σε προβλήματα μεγάλης κλίμακας, υιοθετήσαμε μια τεχνική αραιών πυρήνων πραγματικού χρόνου. Βασιζόμενοι στη συγκεκριμένη τεχνική, εξάγουμε αναδρομικούς κανόνες ενημέρωσης, χαμηλής πολυπλοκότητας, που επιτρέπουν την ανανέωση των παρατηρήσεων του μοντέλου μας σε πραγματικό χρόνο. Για την εκτίμηση των άγνωστων συντελεστών του μοντέλου, υιοθετήσαμε μια αραιή Μπεϋζιανή μεθοδολογία η οποία βελτιώνει την γενικευτική ικανότητα του μοντέλου. Στη συνέχεια, προτείνουμε έναν αλγόριθμο ενισχυτικής μάθησης, ο οποίος βασίζεται στο μοντέλο του περιβάλλοντος, διαχωρίζοντας σε πραγματικό χρόνο τον χώρο εισόδου σε ομάδες (clusters). Καθώς στο πρόβλημα της ενισχυτικής μάθησης τα δεδομένα καταφθάνουν με σειριακό τρόπο, για το πρόβλημα της ομαδοποίησης χρησιμοποιήσαμε μια εκδοχή πραγματικού χρόνου του βασικού αλγορίθμου EM. Με αυτόν τον τρόπο, επιτυγχάνουμε τη αυτόματη δημιουργία και ενημέρωση ένας συνόλου συναρτήσεων βάσης, που χρησιμοποιείται στο πρόβλημα της προσέγγισης της συνάρτησης αξίας. Τέλος, για την εκτίμηση των αγνώστων παραμέτρων του μοντέλου της συνάρτησης αξίας χρησιμοποιήσαμε τη μέθοδο των ελαχίστων τετραγώνων (least-squares solution).Το δεύτερο μέρος της διατριβής αντιμετωπίζει το πρόβλημα της Μπεϋζιανης ενισχυτικής μάθησης, όπου προτείνονται δύο καινοτόμες μεθοδολογίες. Πρώτα, παρουσιάζεται ο αλγόριθμος Linear Bayesian Reinforcement Learning (LBRL), ο οποίος θεμελιώνει την παρατήρηση ότι ένα Μπεϋζιανό γραμμικό (Γκαουσιανό) μοντέλο είναι σε θέση να προσεγγίζει με μεγάλη ακρίβεια την δυναμική του μοντέλου του περιβάλλοντος. Οι πολιτικές εκτιμώνται εφαρμόζοντας προσεγγιστικό δυναμικό προγραμματισμό (approximate dynamic programming) στο μοντέλο μετάβασης το όποιο έχει εξαχθεί από την εκ των υστέρων κατανομή. Η συγκεκριμένη προσεγγιστική τεχνική είναι γνωστή ως δειγματοληψία Thompson και προωθεί την εξερεύνηση αγνώστων περιβαλλόντων. Στη συνέχεια, προτείνεται ο αλγόριθμος Cover Tree Bayesian Reinforcement Learning (CTBRL), ο οποίος αποτελεί μια πραγματικού χρόνου Μπεϋζιανή προσέγγιση ενισχυτικής μάθησης βασιζόμενη σε μία δενδρική δομή. Η βασική ιδέα του αλγορίθμου CTBRL είναι η κατασκευή δένδρων κάλυψης (cover trees) με βάση τις παρατηρήσεις του περιβάλλοντος, τα οποία παραμένουν αποδοτικά σε χώρους υψηλής διάστασης και χρησιμοποιούνται για την εκτίμηση της δυναμικής του προς εξέταση περιβάλλοντος. Παίρνοντας ένα δείγμα από την εκ των υστέρων κατανομή, λαμβάνουμε ένα τμηματικά, γραμμικό (piecewise linear) Γκαουσιανό μοντέλο της δυναμικής του περιβάλλοντος. Όπως και στην περίπτωση του αλγορίθμου LBRL, συνδυάζουμε τη δειγματοληψία (Thompson) με τον προσεγγιστικό δυναμικό προγραμματισμό, λαμβάνοντας αποδοτικές πολιτικές σε άγνωστα περιβάλλοντα. Τα κύρια πλεονεκτήματα της συγκεκριμένης μεθόδου είναι η αποδοτικότητά της καθώς επίσης και η ευελιξία της, καθιστώντας την κατάλληλη για προβλήματα ενισχυτικής μάθησης με συνεχείς χώρους καταστάσεων.Το τρίτο και τελευταίο μέρος της παρούσας διατριβής, επικεντρώνεται στο πρόβλημα της ανάπτυξης ευφυών πρακτόρων για δύο δελεαστικά και συνάμα υψηλών απαιτήσεων παίγνια, το Ms. PacMan και AngryBirds. Αρχικά, προτείνουμε τον πράκτορα RL-PacMan, ο οποίος βασίζεται σε μια περιγραφική και ταυτόχρονα περιεκτική αναπαράσταση του χώρου καταστάσεων. Η προτεινόμενη αναπαράσταση κωδικοποιεί την σκηνή του παιχνιδιού με τέτοιο τρόπο έτσι ώστε να δίνεται η δυνατότητα στο πράκτορα να διακρίνει και να αντιμετωπίσει διαφορετικές καταστάσεις. Για την εξεύρεση μίας καλής πολιτικής, χρησιμοποιήσαμε τον αλγόριθμο ενισχυτικής μάθησης SARSA(λ). Η συγκεκριμένη μελέτη, επιδεικνύει ότι η σχεδίαση μιας αποδοτικής αναπαράστασης είναι σημαντική για την ανάπτυξη ενός αποδοτικού πράκτορα. Τέλος, προτείνουμε τον αλγόριθμο AngryBER ο οποίος βασίζεται σε μια αποδοτική δενδρική δομή για την αναπαράσταση της σκηνής του παιχνιδιού. Η συγκεκριμένη δομή έχει το πλεονέκτημα της εξαγωγής πληροφοριακών χαρακτηριστικών και μετατρέπει το πρόβλημα της επίλυσης του παιχνιδιού σε ένα πρόβλημα παλινδρόμησης. Πιο συγκεκριμένα, χρησιμοποιούμε ένα σύνολο από Μπεϋζιανούς παλινδρομητές για την πρόβλεψη της ανταμοιβής μίας ενέργειας, όπου κάθε ζεύγος ''υλικό κατασκευής αντικειμένου'' και ''τύπος πουλιού'' έχουν το δικό τους μοντέλο παλινδρόμησης. Μετά το πέρας κάθε βολής, το αντίστοιχο μοντέλο παλινδρόμησης ενημερώνεται επαυξητικά, σε κλειστή μορφή. Ο πράκτορας AngryBER έλαβε μέρος στον παγκόσμιο διαγωνισμό AIBIRDS 2014, τερματίζοντας στη 2η θέση μεταξύ των 12 συμμετεχόντων.

Download Full-text