Minimum Average Value-at-Risk for Finite Horizon Semi-Markov Decision Processes in Continuous Time

Synchronous probabilistic Boolean networks (PBNs) and generalized asynchronous PBNs have received significant attention over the past decade as a tool for modeling complex genetic regulatory networks. From a biological perspective, the occurrence of interactions among genes, such as transcription, translation, and degradation, may require a few milliseconds or even up to a few seconds. Such a time delay can be best characterized by generalized asynchronous PBNs. This paper attempts to study an optimal control problem in a generalized asynchronous PBN by employing the theory of average value-at-risk (AVaR) for finite horizon semi-Markov decision processes. Specifically, we first formulate a control model for a generalized asynchronous PBN as an AVaR model for finite horizon semi-Markov decision processes and then solve an optimal control problem for minimizing average value-at-risk criterion over a finite horizon. In order to illustrate the validity of our approach, a numerical example is also displayed.

Download Full-text

Constrained Continuous-Time Markov Decision Processes on the Finite Horizon

Applied Mathematics & Optimization ◽

10.1007/s00245-016-9352-6 ◽

2016 ◽

Vol 75 (2) ◽

pp. 317-341 ◽

Cited By ~ 3

Author(s):

Xianping Guo ◽

Yonghui Huang ◽

Yi Zhang

Keyword(s):

Markov Decision Processes ◽

Continuous Time ◽

Decision Processes ◽

Finite Horizon ◽

Markov Decision

Download Full-text

Algoritmo Exato de Avaliação de uma Política Estacionária para CVaR MDP

10.5753/eniac.2019.9341 ◽

2019 ◽

Author(s):

Denis Pais ◽

Valdinei Freire ◽

Karina Valdivia-Delgado

Keyword(s):

At Risk ◽

Markov Decision Processes ◽

Value At Risk ◽

Decision Processes ◽

Conditional Value At Risk ◽

Markov Decision

Processos de decisão Markovianos (Markov Decision Processes -- MDPs) são amplamente utilizados para resolver problemas de tomada de decisão sequencial. O critério de desempenho mais utilizado em MDPs é a minimização do custo total esperado. Porém, esta abordagem não leva em consideração flutuações em torno da média, o que pode afetar significativamente o desempenho geral do processo. MDPs que lidam com esse tipo de problema são chamados de MDPs sensíveis a risco. Um tipo especial de MDP sensível a risco é o CVaR MDP, que inclui a métrica CVaR (Conditional-Value-at-Risk) comumente utilizada na área financeira. Um algoritmo que encontra a política ótima para CVaR MDPs é o algoritmo de Iteração de Valor com Interpolação Linear chamado CVaRVILI. O algoritmo CVaRVILI precisa resolver problemas de programação linear várias vezes, o que faz com que o algoritmo tenha um alto custo computacional. Neste trabalho, é proposto um algoritmo que avalia uma política estacionário para CVaR MDPs de custo constante e que não precisa resolver problemas de programação linear, esse algoritmo é chamado de PECVaR. Além disso, foram realizados experimentos usando o custo total esperado e o custo usando o algoritmo PECVaR de uma política neutra para inicializar o algoritmo CVaRVILI. Os resultados mostram que utilizando essas inicializações é possível diminuir o tempo de convergência do CVaRVILI na maioria dos casos.

Download Full-text