辽宁石油化工大学学报 ›› 2016, Vol. 36 ›› Issue (6): 64-68.DOI: 10.3969/j.issn.1672-6952.2016.06.014
摘要: 针对模型自由的随机线性离散时间系统,通过Q 学习算法求解无限时间随机线性二次最优控制问题。首先根据贝尔曼最优性原理定义Q函数,通过值迭代算法的思想构造Q 学习算法;其次给出Q 学习算法的等价形式并证明其收敛性;最后通过一个仿真实例说明Q 学习算法的有效性。
么彩莲, 王 涛. 模型自由的离散时间系统的随机线性二次最优控制[J]. 辽宁石油化工大学学报, 2016, 36(6): 64-68.