夏俐:基于灵敏度信息的颁痴补搁动态优化理论与算法研究
近期,我院夏俐教授在管理学领域国际高水平期刊Production and Operations Management(简称POM)上发表了题为“Risk-Sensitive Markov Decision Processes with Long-Run CVaR Criterion” 的研究论文,论文的其他作者还包括管理学院的博士生张璐瑶和斯坦福大学管理科学与工程系的Peter W. Glynn 教授,该研究针对随机动态系统中的过程中损失的CVaR优化问题进行研究,完善了相应的优化理论及算法体系,Production and Operations Management是运筹管理领域的顶级期刊,也是国际商学院公认的一流期刊目录鲍罢顿24刊物之一。
?
CVaR指标是重要的风险刻画指标,在应用于多阶段动态决策时,由于指标函数的不可加性导致经典动态规划原理失效,Bellman最优性方程不成立,需要寻求新的优化方法。本文基于灵敏度优化方法对离散时间无穷阶段稳态CVaR 准则下的马氏决策过程(MDP)优化问题进行研究。通过引入伪 CVaR 指标,将原问题转化为一个两层MDP问题,内层为标准动态规划问题,外层为伪CVaR的单参数优化问题,并给出了 CVaR性能差分公式用以刻画不同策略对应的稳态 CVaR 性能差。
?
论文证明了确定性平稳策略的最优性,基于CVaR差分公式和性能导数公式得到了CVaR Bellman局部最优方程,从而给出了得到局部最优策略的充要条件以及稳态CVaR MDP的策略迭代型算法,证明了该算法可收敛至局部最优策略。进一步,论文基于两层MDP问题的灵敏度信息和临界点分析,证明了伪CVaR函数的分片线性、分段凸的性质,在此基础上给出了一种全局最优算法,证明了算法可收敛至全局最优策略。论文最后通过多个数值实验对比验证了本文优化理论与算法的有效性。
?
论文的主要贡献可分为以下三点,第一,本文首次对衡量系统过程波动性的稳态CVaR准则下的MDP优化理论进行研究,完善了现有文献在该类指标的理论体系;第二,不同于经典MDP理论,本文从灵敏度优化的角度对稳态CVaR MDP进行研究,得到了CVaR 性能差分公式、性能导数公式以及 CVaR Bellman 局部最优方程;第三,通过将原问题转化为两层MDP问题,本文首次提出了MDP的CVaR指标的有效求解算法,分别得到了一种可快速收敛至局部最优的策略迭代型算法以及一种基于灵敏度分析的全局最优算法,填补了现有MDP文献对于CVaR的有效求解算法的空白。
?
论文链接:
https://doi.org/10.1111/poms.14077
?