Algoritmo Exato de Avaliação de uma Política Estacionária para CVaR MDP

Value At Risk ◽

Decision Processes ◽

Markov Decision

Processos de decisão Markovianos (Markov Decision Processes -- MDPs) são amplamente utilizados para resolver problemas de tomada de decisão sequencial. O critério de desempenho mais utilizado em MDPs é a minimização do custo total esperado. Porém, esta abordagem não leva em consideração flutuações em torno da média, o que pode afetar significativamente o desempenho geral do processo. MDPs que lidam com esse tipo de problema são chamados de MDPs sensíveis a risco. Um tipo especial de MDP sensível a risco é o CVaR MDP, que inclui a métrica CVaR (Conditional-Value-at-Risk) comumente utilizada na área financeira. Um algoritmo que encontra a política ótima para CVaR MDPs é o algoritmo de Iteração de Valor com Interpolação Linear chamado CVaRVILI. O algoritmo CVaRVILI precisa resolver problemas de programação linear várias vezes, o que faz com que o algoritmo tenha um alto custo computacional. Neste trabalho, é proposto um algoritmo que avalia uma política estacionário para CVaR MDPs de custo constante e que não precisa resolver problemas de programação linear, esse algoritmo é chamado de PECVaR. Além disso, foram realizados experimentos usando o custo total esperado e o custo usando o algoritmo PECVaR de uma política neutra para inicializar o algoritmo CVaRVILI. Os resultados mostram que utilizando essas inicializações é possível diminuir o tempo de convergência do CVaRVILI na maioria dos casos.

Proceedings of the 33rd Annual ACM/IEEE Symposium on Logic in Computer Science - LICS '18 ◽

Conditional Value-at-Risk for Reachability and Mean Payoff in Markov Decision Processes

10.1145/3209108.3209176 ◽

2018 ◽

Cited By ~ 2

Author(s):

Jan Křetínský ◽

Tobias Meggendorfer

Keyword(s):

At Risk ◽

Value At Risk ◽

Decision Processes ◽

Markov Decision ◽

Mean Payoff

Conditional Value-at-Risk for Random Immediate Reward Variables in Markov Decision Processes

American Journal of Computational Mathematics ◽

10.4236/ajcm.2011.13021 ◽

2011 ◽

Vol 01 (03) ◽

pp. 183-188 ◽

Cited By ~ 1

Author(s):

Masayuki Kageyama ◽

Takayuki Fujii ◽

Koji Kanefuji ◽

Hiroe Tsubaki

Keyword(s):

At Risk ◽

Value At Risk ◽

Decision Processes ◽

Markov Decision

An average-value-at-risk criterion for Markov decision processes with unbounded costs

Frontiers of Mathematics in China ◽

10.1007/s11464-021-0944-3 ◽

2021 ◽

Author(s):

Qiuli Liu ◽

Wai-Ki Ching ◽

Junyu Zhang ◽

Hongchu Wang

Keyword(s):

At Risk ◽

Value At Risk ◽

Decision Processes ◽

Average Value ◽

Risk Criterion ◽

Markov Decision ◽

Markov Decision Processes with Average-Value-at-Risk criteria

Mathematical Methods of Operations Research ◽

10.1007/s00186-011-0367-0 ◽

2011 ◽

Vol 74 (3) ◽

pp. 361-379 ◽

Cited By ~ 22

Author(s):

Nicole Bäuerle ◽

Jonathan Ott

Keyword(s):

At Risk ◽

Value At Risk ◽

Decision Processes ◽

Average Value ◽

Risk Criteria ◽

Markov Decision ◽

Quantile Markov Decision Processes

Operations Research ◽

10.1287/opre.2021.2123 ◽

2021 ◽

Author(s):

Xiaocheng Li ◽

Huaiyang Zhong ◽

Margaret L. Brandeau

Keyword(s):

Markov Decision Process ◽

Decision Process ◽

Value At Risk ◽

Infinite Horizon ◽

Decision Processes ◽

Sequential Decision ◽

Optimal Drug ◽

Markov Decision

Title: Sequential Decision Making Using Quantiles The goal of a traditional Markov decision process (MDP) is to maximize the expectation of cumulative reward over a finite or infinite horizon. In many applications, however, a decision maker may be interested in optimizing a specific quantile of the cumulative reward. For example, a physician may want to determine the optimal drug regime for a risk-averse patient with the objective of maximizing the 0.10 quantile of the cumulative reward; this is the cumulative improvement in health that is expected to occur with at least 90% probability for the patient. In “Quantile Markov Decision Processes,” X. Li, H. Zhong, and M. Brandeau provide analytic results to solve the quantile Markov decision process (QMDP) problem. They develop an efficient dynamic programming procedure that finds the optimal QMDP value function for all states and quantiles in one pass. The algorithm also extends to the MDP problem with a conditional value-at-risk objective.

Risk aversion in finite Markov Decision Processes using total cost criteria and average value at risk

2016 IEEE International Conference on Robotics and Automation (ICRA) ◽

10.1109/icra.2016.7487152 ◽

2016 ◽

Cited By ~ 3

Author(s):

Stefano Carpin ◽

Yin-Lam Chow ◽

Marco Pavone

Keyword(s):

At Risk ◽

Risk Aversion ◽

Value At Risk ◽

Decision Processes ◽

Total Cost ◽

Average Value ◽

Markov Decision ◽

Minimum Average Value-at-Risk for Finite Horizon Semi-Markov Decision Processes in Continuous Time

SIAM Journal on Optimization ◽

10.1137/140976029 ◽

2016 ◽

Vol 26 (1) ◽

pp. 1-28 ◽

Cited By ~ 3

Author(s):

Yonghui Huang ◽

Xianping Guo

Keyword(s):

At Risk ◽

Continuous Time ◽

Value At Risk ◽

Decision Processes ◽

Finite Horizon ◽

Average Value ◽

Markov Decision ◽

Optimal Intervention in Semi-Markov-Based Asynchronous Probabilistic Boolean Networks

Complexity ◽

10.1155/2018/8983670 ◽

2018 ◽

Vol 2018 ◽

pp. 1-12 ◽

Cited By ~ 3

Author(s):

Qiuli Liu ◽

Qingguo Zeng ◽

Jinghao Huang ◽

Deliang Li

Keyword(s):

Optimal Control ◽

Value At Risk ◽

Boolean Networks ◽

Decision Processes ◽

Finite Horizon ◽

Average Value ◽

Markov Decision ◽

Probabilistic Boolean Networks ◽

Synchronous probabilistic Boolean networks (PBNs) and generalized asynchronous PBNs have received significant attention over the past decade as a tool for modeling complex genetic regulatory networks. From a biological perspective, the occurrence of interactions among genes, such as transcription, translation, and degradation, may require a few milliseconds or even up to a few seconds. Such a time delay can be best characterized by generalized asynchronous PBNs. This paper attempts to study an optimal control problem in a generalized asynchronous PBN by employing the theory of average value-at-risk (AVaR) for finite horizon semi-Markov decision processes. Specifically, we first formulate a control model for a generalized asynchronous PBN as an AVaR model for finite horizon semi-Markov decision processes and then solve an optimal control problem for minimizing average value-at-risk criterion over a finite horizon. In order to illustrate the validity of our approach, a numerical example is also displayed.