2024年中山大学优秀博士学位论文丨管理学院张璐瑶:稳态颁痴补搁的动态优化理论与算法研究

发布日期:2024-12-10

?

?

论文概述

?

论文题目

《稳态颁痴补搁的动态优化理论与算法研究》

?

指导老师

夏俐教授

?

研究背景 / 价值

CVaR指标是重要的风险刻画指标,在应用于多阶段动态决策时由于指标函数的不可加性导致经典动态规划原理失效,Bellman最优性方程不成立,需要寻求新的优化方法。本文基于灵敏度优化方法对离散时间无穷阶段稳态CVaR准则下的马氏决策过程(MDP)优化问题进行研究。通过引入伪CVaR指标,本文将原问题转化为一个两层MDP问题,给出了CVaR性能差分公式用以刻画不同策略对应的稳态CVaR性能差。论文证明了确定性平稳策略的最优性,基于CVaR差分公式和性能导数公式得到了CVaR Bellman局部最优方程,从而给出了得到局部最优策略的充要条件以及稳态CVaR MDP的策略迭代型算法,证明了该算法可收敛至局部最优策略。进一步,论文基于两层MDP问题的灵敏度信息和临界点分析,证明了伪CVaR函数的分片线性、分段凸的性质,在此基础上给出了一种全局最优算法,证明了算法可收敛至全局最优策略。针对模型未知和大规模问题情境,论文还开发了CVaR敏感的Q-learning算法及DQN算法,并将算法结果应用于投资组合管理问题中,通过多组实验对比验证了本文优化理论与算法的有效性。

?

?

主要内容与创新

论文的主要贡献可分为以下几点:

第一,本文首次对衡量系统过程波动性的稳态颁痴补搁准则下的惭顿笔优化理论进行研究,完善了现有文献在该类指标的理论体系;

第二,不同于经典MDP理论,本文从灵敏度优化的角度对稳态CVaR MDP进行研究,得到了CVaR性能差分公式、性能导数公式以及CVaR Bellman局部最优方程;

第叁,通过将原问题转化为两层惭顿笔问题,本文首次提出了惭顿笔的颁痴补搁指标的有效求解算法,分别得到了一种可快速收敛至局部最优的策略迭代型算法以及一种基于灵敏度分析的全局最优算法;

第四,本文开发了能够结合实际数据在线优化稳态CVaR的均值-CVaR Q-learning算法和DQN算法,为实际中模型未知的应用问题提供了有效的技术手段。

?

导师点评

?

张璐瑶同学的博士论文研究随机系统中稳态CVaR风险指标的动态优化问题,论文选题具有很好的理论意义和应用价值。论文创新之处在于:基于马氏决策过程(MDP)的数学模型,从灵敏度优化理论的角度出发,给出了一种优化稳态CVaR风险指标的优化方法,提出了针对稳态CVaR MDP的策略迭代类型算法、坐标下降算法以及一种能够收敛至全局最优的灵敏度分析算法,进一步从数据驱动的角度出发提出了针对稳态CVaR风险指标的强化学习算法,并将上述优化方法在投资组合管理问题中进行了模拟实证检验。由于CVaR风险指标导致动态规划原理不成立,求解难度较大,论文创新性较强。

?

作者介绍

?
image-20241217144347-1

张璐瑶与夏俐教授

管理学院博士研究生张璐瑶,博士期间主要研究方向为颁痴补搁风险、马尔可夫决策过程、强化学习及其相关应用等。读博期间在领域内顶级学术期刊Production and Operations Management (笔翱惭厂)上发表学术论文1篇,曾荣获中山大学优秀博士学位论文、中山大学优秀毕业生、国家奖学金、中山大学汪淑钧奖学金、学术科研一等奖、青年学者最佳论文奖等荣誉。

?

学海心路

?

读博的时光是单纯的,同时也伴随着日复一日的积累和打磨。我会永远记得这段充满崩溃、坚持和快乐的时光,原来花费几年时间静下心来坚持做好一件事的感觉如此美好。

?

学长寄语

?

刻苦、专心、坚持,多多向师长、同学请教,在读书的日子努力为自己充电,水到渠成。