期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
Actor-Critic框架下的数据驱动异步电机离线参数辨识方法 预览
1
作者 漆星 张倩 《电工技术学报》 EI CSCD 北大核心 2019年第9期1875-1885,共11页
电动汽车用电机的参数辨识可以使电机在任意转速下尽可能输出更高的转矩及效率,是优化电机输出性能的重要手段。传统的基于模型驱动的参数辨识方法的缺点为易受模型误差的影响、抗干扰能力差以及无法实现全转速范围内的转矩最优。鉴于... 电动汽车用电机的参数辨识可以使电机在任意转速下尽可能输出更高的转矩及效率,是优化电机输出性能的重要手段。传统的基于模型驱动的参数辨识方法的缺点为易受模型误差的影响、抗干扰能力差以及无法实现全转速范围内的转矩最优。鉴于上述缺点,该文研究了一种完全基于实际数据的电动汽车用异步电机离线参数辨识方法,对电机的转子电阻和励磁电感在任意转速下进行了优化,从而使电机能够在特定转速和特定电流下输出最优转矩。为达到电机在特定转速和电流下输出转矩最优的目的,研究了一种基于 Actor-Critic框架的电动汽车用异步电机离线参数辨识方法,确定了框架中的观测、奖励和动作的设计。实验证明相对于传统参数辨识方法,该文方法具有更高的精确性和鲁棒性,同时确保了电动汽车用异步电机在任意转速下的输出转矩最优。 展开更多
关键词 异步电机参数辨识数据驱动Actor-Critic 框架
在线阅读 下载PDF
一种用于连续动作空间的最小二乘行动者-评论家方法 预览 被引量:7
2
作者 朱斐 刘全 +1 位作者 傅启明 伏玉琛 《计算机研究与发展》 EI CSCD 北大核心 2014年第3期548-558,共11页
解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信... 解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信息,算法效果会变差甚至算法失效.针对这类问题,提出了一种最小二乘行动者-评论家方法(least square actor-critic algorithm,LSAC),使用函数逼近器近似表示值函数及策略,利用最小二乘法在线动态求解近似值函数参数及近似策略参数,以近似值函数作为评论家指导近似策略参数的求解.将LSAC算法用于解决经典的具有连续动作空间的小车平衡杆问题和mountain car问题,并与Caela(continuous actor-critic learning automaton)算法和eNAC(episodic natural actor-critic)算法进行比较.结果表明,LSAC算法能有效地解决连续动作空间问题,并具有较优的执行性能. 展开更多
关键词 强化学习 行动者-评论家算法 连续动作空间 最小二乘法 小车平衡杆问题 MOUNTAIN car问题
在线阅读 下载PDF
一种采用模型学习和经验回放加速的正则化自然行动器评判器算法 预览
3
作者 钟珊 刘全 +2 位作者 傅启明 龚声蓉 董虎胜 《计算机学报》 EI CSCD 北大核心 2019年第3期532-553,共22页
行动器评判器(Actor Critic,简称AC)算法是强化学习连续动作领域的一类重要算法,其采用独立的结构表示策略,但更新策略时需要大量样本导致样本效率不高.为了解决该问题,提出了基于模型学习和经验回放加速的正则化自然AC算法(Regularized... 行动器评判器(Actor Critic,简称AC)算法是强化学习连续动作领域的一类重要算法,其采用独立的结构表示策略,但更新策略时需要大量样本导致样本效率不高.为了解决该问题,提出了基于模型学习和经验回放加速的正则化自然AC算法(Regularized Natural AC with Model Learning and Experience Replay,简称RNAC-ML-ER).RNAC-ML-ER将Agent与环境在线交互产生的样本用于学习系统动态性对应的线性模型和填充经验回放存储器.将线性模型产生的模拟样本和经验回放存储器中存储的样本作为在线样本的补充,实现值函数、优势函数和策略的更新.为了提高更新的效率,在每个时间步,仅当模型的预测误差未超过阈值时才利用该模型进行规划,同时根据TD-error从大到小的顺序对经验回放存储器中的样本进行回放.为了降低策略梯度估计的方差,引入优势函数参数向量对优势函数进行线性近似,在优势函数的目标函数中加入2-范数进行正则化,并通过优势函数参数向量来对策略梯度更新,以促进优势函数和策略的收敛.在指定的两个假设成立的条件下,通过理论分析证明了所提算法RNAC-ML-ER的收敛性.在4个强化学习的经典问题即平衡杆、小车上山、倒立摆和体操机器人中对RNACML-ER算法进行实验,结果表明所提算法能在大幅提高样本效率和学习速率的同时保持较高的稳定性. 展开更多
关键词 行动器评判器算法 模型学习 经验回放 最优策略 正则化 自然梯度
在线阅读 下载PDF
一种内在动机驱动的FRBF网络自主学习算法 预览
4
作者 任红格 徐少彬 李福进 《河北联合大学学报:自然科学版》 CAS 2015年第3期88-94,共7页
提出一种内在动机驱动下的基于FRBF(模糊径向基函数)网络结构的Actor-Critic学习算法。该算法在内在动机的驱动下,利用FRBF网络本身所具有的根据任务复杂度和学习进度对整体网络进行优化的特点,有效解决了通常情况下对值函数进行离散处... 提出一种内在动机驱动下的基于FRBF(模糊径向基函数)网络结构的Actor-Critic学习算法。该算法在内在动机的驱动下,利用FRBF网络本身所具有的根据任务复杂度和学习进度对整体网络进行优化的特点,有效解决了通常情况下对值函数进行离散处理所造成的维数灾难问题,改善了系统的泛化能力和算法收敛速度。并在两轮机器人上做了仿真实验,结果表明,该算法能够使机器人通过与环境的交互学习,达到自主控制平衡的目的,体现了该算法的有效性。 展开更多
关键词 内在动机 FRBF网络 强化学习 Actor-Critic算法 自主学习
在线阅读 下载PDF
基于长短期记忆-异步优势动作评判的智能车汇入模型 预览
5
作者 吴思凡 杜煜 +2 位作者 徐世杰 杨硕 杜晨 《汽车技术》 CSCD 北大核心 2019年第10期42-47,共6页
针对以往强化学习中智能车汇入车流算法训练时间复杂度高、收敛速度慢的问题,提出基于长短期记忆-异步优势动作评判算法的智能车汇入模型。在异步优势动作评判算法的基础上,结合长短期记忆神经网络,有效地解决训练模型时间和模型收敛的... 针对以往强化学习中智能车汇入车流算法训练时间复杂度高、收敛速度慢的问题,提出基于长短期记忆-异步优势动作评判算法的智能车汇入模型。在异步优势动作评判算法的基础上,结合长短期记忆神经网络,有效地解决训练模型时间和模型收敛的问题。试验结果表明,该算法提高了模型收敛速度与汇入成功率,同时降低了时间复杂度,适合汇入车流场景。 展开更多
关键词 智能车 汇入车流 异步优势动作评判算法 长短期记忆神经网络 时间复杂度 收敛速度
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部 意见反馈