3月13日,清华大学长聘教授、博士生导师张立平应邀莅临我校,作了题为《Exchange Policy Optimization Algorithm for Semi-Infinite Safe Reinforcement Learning》的学术报告。张立平教授长期深耕于连续优化、张量优化、机器学习及强化学习领域,已在国内外核心期刊发表高质量论文60余篇,并荣获教育部自然科学奖二等奖等多项荣誉。
报告中,张立平教授聚焦安全强化学习(Safe RL)的核心挑战,即如何在确保严格安全约束的前提下平衡算法性能。重点探讨了“半无限安全强化学习”这一前沿问题,该场景涉及连续集的安全条件,传统方法往往难以提供充分的安全保证。针对这一难题,张教授提出了创新的“交换策略优化(EPO)”算法。
张教授详细阐述了EPO算法的核心机制:通过迭代的“扩展 - 删除”策略,动态管理有限的约束子集。该方法既保持了工作集的紧凑性以支持有效的策略搜索,又确保了最优性能与确定性安全。她从理论层面证明了EPO算法的近似最优性,量化了最优性差距,并确立了其有限时间收敛特性。实证结果显示,相较于现有基准方法,EPO在策略可行性方面表现更为优异。
此次报告内容详实、逻辑严密,展示了优化理论与机器学习交叉融合的最新进展。在场师生就算法细节与应用前景与张教授进行了深入交流。大家纷纷表示,报告拓宽了学术视野,为相关领域的研究提供了新的思路与方法论参考。
(撰稿:李凤 单喜军;图片:郎靖坤;审核:秦国帅)