Reversible Markov Decision Processes with an Average-Reward Criterion

SIAM Journal on Control and Optimization ◽

10.1137/110844957 ◽

2013 ◽

Vol 51 (1) ◽

pp. 402-418

Author(s):

Randy Cogill ◽

Cheng Peng

Keyword(s):

Markov Decision Processes ◽

Decision Processes ◽

Average Reward ◽

Markov Decision ◽

Average Reward Criterion ◽

Reward Criterion

Download Full-text

Estimation and control in finite Markov decision processes with the average reward criterion

Applicationes Mathematicae ◽

10.4064/am31-2-1 ◽

2004 ◽

Vol 31 (2) ◽

pp. 127-154

Author(s):

Rolando Cavazos-Cadena ◽

Raúl Montes-de-Oca

Keyword(s):

Markov Decision Processes ◽

Decision Processes ◽

Average Reward ◽

Markov Decision ◽

Average Reward Criterion ◽

Estimation And Control ◽

And Control ◽

Reward Criterion

Download Full-text

Bounded Parameter Markov Decision Processes with Average Reward Criterion

Learning Theory - Lecture Notes in Computer Science ◽

10.1007/978-3-540-72927-3_20 ◽

2007 ◽

pp. 263-277 ◽

Author(s):

Ambuj Tewari ◽

Peter L. Bartlett

Keyword(s):

Markov Decision Processes ◽

Decision Processes ◽

Average Reward ◽

Markov Decision ◽

Average Reward Criterion ◽

Reward Criterion

Download Full-text

Recursive adaptive control of Markov decision processes with the average reward criterion

Applied Mathematics & Optimization ◽

10.1007/bf01442397 ◽

1991 ◽

Vol 23 (1) ◽

pp. 193-207 ◽

Author(s):

Rolando Cavazos-Cadena ◽

On�simo Hern�ndez-Lerma

Keyword(s):

Adaptive Control ◽

Markov Decision Processes ◽

Decision Processes ◽

Average Reward ◽

Markov Decision ◽

Average Reward Criterion ◽

Reward Criterion

Download Full-text

Semi-Markov decision processes with polynomial reward

Journal of Applied Probability ◽

10.2307/3213482 ◽

1982 ◽

Vol 19 (2) ◽

pp. 301-309 ◽

Author(s):

Zvi Rosberg

Keyword(s):

Transition Period ◽

Queueing Network ◽

Decision Processes ◽

Average Reward ◽

Network Scheduling ◽

Long Run ◽

Markov Decision ◽

Average Reward Criterion ◽

Long Run Average Reward ◽

Reward Criterion

A semi-Markov decision process, with a denumerable multidimensional state space, is considered. At any given state only a finite number of actions can be taken to control the process. The immediate reward earned in one transition period is merely assumed to be bounded by a polynomial and a bound is imposed on a weighted moment of the next state reached in one transition. It is shown that under an ergodicity assumption there is a stationary optimal policy for the long-run average reward criterion. A queueing network scheduling problem, for which previous criteria are inapplicable, is given as an application.

Download Full-text

VECTOR-VALUED MARKOV DECISION PROCESSES WITH AVERAGE REWARD CRITERION: THE MULTICHAIN CASE

Probability in the Engineering and Informational Sciences ◽

10.1017/s0269964800144092 ◽

2000 ◽

Vol 14 (4) ◽

pp. 533-548

Author(s):

Kazuyoshi Wakuta

Keyword(s):

Decision Process ◽

Decision Processes ◽

Iteration Algorithm ◽

Average Reward ◽

Markov Decision ◽

Policy Iteration Algorithm ◽

Average Reward Criterion ◽

Systems Of Linear Inequalities ◽

Vector Valued ◽

Reward Criterion

We study the multichain case of a vector-valued Markov decision process with average reward criterion. We characterize optimal deterministic stationary policies via systems of linear inequalities and discuss a policy iteration algorithm for finding all optimal deterministic stationary policies.

Download Full-text

Semi-Markov decision processes with polynomial reward

Journal of Applied Probability ◽

10.1017/s0021900200022786 ◽

1982 ◽

Vol 19 (02) ◽

pp. 301-309

Author(s):

Zvi Rosberg

Keyword(s):

Transition Period ◽

Queueing Network ◽

Decision Processes ◽

Average Reward ◽

Network Scheduling ◽

Long Run ◽

Markov Decision ◽

Average Reward Criterion ◽

Long Run Average Reward ◽

Reward Criterion

A semi-Markov decision process, with a denumerable multidimensional state space, is considered. At any given state only a finite number of actions can be taken to control the process. The immediate reward earned in one transition period is merely assumed to be bounded by a polynomial and a bound is imposed on a weighted moment of the next state reached in one transition. It is shown that under an ergodicity assumption there is a stationary optimal policy for the long-run average reward criterion. A queueing network scheduling problem, for which previous criteria are inapplicable, is given as an application.

Download Full-text

A Convex Programming Approach for Discrete-Time Markov Decision Processes under the Expected Total Reward Criterion

SIAM Journal on Control and Optimization ◽

10.1137/19m1255811 ◽

2020 ◽

Vol 58 (4) ◽

pp. 2535-2566

Author(s):

François Dufour ◽

Alexandre Genadot

Keyword(s):

Convex Programming ◽

Markov Decision Processes ◽

Discrete Time ◽

Decision Processes ◽

Programming Approach ◽

Total Reward ◽

Markov Decision ◽

Reward Criterion

Download Full-text

A unified approach to adaptive control of average reward Markov decision processes

OR Spectrum ◽

10.1007/bf01740510 ◽

1988 ◽

Vol 10 (3) ◽

pp. 161-166 ◽

Author(s):

G. Hübner

Keyword(s):

Adaptive Control ◽

Markov Decision Processes ◽

Decision Processes ◽

Average Reward ◽

Unified Approach ◽

Markov Decision

Download Full-text

Approximate receding horizon approach for Markov decision processes: average reward case

Journal of Mathematical Analysis and Applications ◽

10.1016/s0022-247x(03)00506-7 ◽

2003 ◽

Vol 286 (2) ◽

pp. 636-651 ◽

Author(s):

Hyeong Soo Chang ◽

Steven I. Marcus

Keyword(s):

Markov Decision Processes ◽

Decision Processes ◽

Average Reward ◽

Receding Horizon ◽

Markov Decision

Download Full-text

Relative Q-Learning for Average-Reward Markov Decision Processes with Continuous States

SSRN Electronic Journal ◽

10.2139/ssrn.3993508 ◽

2021 ◽

Author(s):

Xiangyu Yang ◽

Jiaqiao Hu ◽

Jianqiang Hu

Keyword(s):

Markov Decision Processes ◽

Decision Processes ◽

Average Reward ◽

Continuous States ◽

Markov Decision

Download Full-text