清华大学张立平教授做客我校分享半无限安全强化学习最新成果-康复大学公共教学部（马克思主义学院）

3月13日，清华大学长聘教授、博士生导师张立平应邀莅临我校，作了题为《Exchange Policy Optimization Algorithm for Semi-Infinite Safe Reinforcement Learning》的学术报告。张立平教授长期深耕于连续优化、张量优化、机器学习及强化学习领域，已在国内外核心期刊发表高质量论文60余篇，并荣获教育部自然科学奖二等奖等多项荣誉。

报告中，张立平教授聚焦安全强化学习（Safe RL）的核心挑战，即如何在确保严格安全约束的前提下平衡算法性能。重点探讨了“半无限安全强化学习”这一前沿问题，该场景涉及连续集的安全条件，传统方法往往难以提供充分的安全保证。针对这一难题，张教授提出了创新的“交换策略优化（EPO）”算法。

张教授详细阐述了EPO算法的核心机制：通过迭代的“扩展 - 删除”策略，动态管理有限的约束子集。该方法既保持了工作集的紧凑性以支持有效的策略搜索，又确保了最优性能与确定性安全。她从理论层面证明了EPO算法的近似最优性，量化了最优性差距，并确立了其有限时间收敛特性。实证结果显示，相较于现有基准方法，EPO在策略可行性方面表现更为优异。

此次报告内容详实、逻辑严密，展示了优化理论与机器学习交叉融合的最新进展。在场师生就算法细节与应用前景与张教授进行了深入交流。大家纷纷表示，报告拓宽了学术视野，为相关领域的研究提供了新的思路与方法论参考。

（撰稿：李凤单喜军；图片：郎靖坤；审核：秦国帅）

首页

首页

学院新闻

通知公告

成果展示

学院新闻

清华大学张立平教授做客我校分享半无限安全强化学习最新成果