汽车实用技术 ›› 2025, Vol. 50 ›› Issue (15): 48-55.DOI: 10.16638/j.cnki.1671-7988.2025.015.009
• 智能网联汽车 • 上一篇
吴凤
WU Feng
摘要: 为缩小自动驾驶汽车在决策与规划行为上与人类驾驶员的差异,文章提出了一种基于 最大熵逆强化学习(MaxEnt IRL)的个性化决策与规划方法。该方法首先通过卷积-池化长短 期记忆网络(LSTM)捕捉周围车辆的交互关系来预测周车轨迹。其次,在驾驶行为建模过程 中,将人类的连续行为离散化以减少 MaxEnt IRL 的计算复杂度,并采用个性化回报函数来解 释不同驾驶员的偏好与决策过程。然后使用五次多项式规划方法求解轨迹,最后在仿真环境 中验证了文章提出方法的有效性。实验结果表明,与通用的最大熵逆强化学习算法相比,文 章所提出的个性化算法显著减少了规划轨迹与专家轨迹之间的误差,均方根误差(RMSE)从 3 m 降低至 0.8 m,并显著提升了车内乘员的乘坐舒适性。