期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于多重门限机制的异步深度强化学习 预览
1
作者 徐进 刘全 +2 位作者 梁斌 周倩 《计算机学报》 EI CSCD 北大核心 2019年第3期636-653,共18页
近年来,深度强化学习已经成为人工智能领域一个新的研究热点.深度强化学习在如Atari 2600游戏等高维度大状态空间任务中取得了令人瞩目的成功,但仍存在训练时间太长等问题.虽然异步深度强化学习通过利用多线程技术大幅度减少了深度强化... 近年来,深度强化学习已经成为人工智能领域一个新的研究热点.深度强化学习在如Atari 2600游戏等高维度大状态空间任务中取得了令人瞩目的成功,但仍存在训练时间太长等问题.虽然异步深度强化学习通过利用多线程技术大幅度减少了深度强化学习模型所需的训练时间,但是,基于循环神经网络的异步深度强化学习算法依然需要大量训练时间,原因在于具有记忆能力的循环神经网络无法利用并行化计算加速模型训练过程.为了加速异步深度强化学习模型的训练过程,并且使得网络模型具有记忆能力,该文提出了一种基于多重门限机制的异步优势行动者-评论家算法.该模型主要有三个特点:一是通过使用多重门限机制使前馈神经网络具有记忆能力,使Agent能够通过记忆不同时间步的状态信息做出更优的决策;二是通过利用并行计算进一步加速Agent的训练过程,减少模型所需的训练时间;三是通过采用一种新的跳跃连接方式实现数据向更深的网络层传递,增强模型识别状态特征的能力,从而提升深度强化学习算法的稳定性和学习效果.该文通过Atari 2600游戏平台上的部分战略型游戏以及稀疏奖赏环境型游戏来评估新模型的性能.实验结果表明,与传统的异步深度强化学习算法相比,新模型能够以较少的时间代价来获得更优的学习效果. 展开更多
关键词 深度学习 强化学习 异步深度强化学习 循环神经网络 多重门限机制 跳跃连接
在线阅读 下载PDF
以开源项目为驱动的软件工程课程改革与研究 预览
2
作者 王艺深 《计算机教育》 2019年第1期84-87,共4页
分析当前软件工程教学存在的问题,提出以开源项目为驱动的软件工程课程改革,并分别从项目的准备、设计、实施3个阶段阐述具体的培养方法。
关键词 课程改革 软件工程 开源项目 人才培养
在线阅读 下载PDF
深度强化学习综述 预览 被引量:17
3
作者 刘全 翟建伟 +4 位作者 钟珊 周倩 徐进 《计算机学报》 CSCD 北大核心 2018年第1期1-27,共27页
深度强化学习是人工智能领域的一个新的研究热点.它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制.自提出以来,在许多需要感知高维度原始输入数据和决策... 深度强化学习是人工智能领域的一个新的研究热点.它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制.自提出以来,在许多需要感知高维度原始输入数据和决策控制的任务中,深度强化学习方法已经取得了实质性的突破.该文首先阐述了三类主要的深度强化学习方法,包括基于值函数的深度强化学习、基于策略梯度的深度强化学习和基于搜索与监督的深度强化学习;其次对深度强化学习领域的一些前沿研究方向进行了综述,包括分层深度强化学习、多任务迁移深度强化学习、多智能体深度强化学习、基于记忆与推理的深度强化学习等.最后总结了深度强化学习在若干领域的成功应用和未来发展趋势. 展开更多
关键词 人工智能 深度学习 强化学习 深度强化学习
在线阅读 下载PDF
一种基于视觉注意力机制的深度循环Q网络模型 预览 被引量:3
4
作者 刘全 翟建伟 +3 位作者 钟珊 周倩 《计算机学报》 CSCD 北大核心 2017年第6期1353-1366,共14页
由现代强化学习和深度学习相结合形成的深度强化学习方法是目前人工智能领域一个新的研究热点,已经在各种需要感知高维度原始输入数据和决策控制的任务中取得了实质性的突破.尤其是一种被称为深度Q网络的模型在处理诸如Atari 2600游戏... 由现代强化学习和深度学习相结合形成的深度强化学习方法是目前人工智能领域一个新的研究热点,已经在各种需要感知高维度原始输入数据和决策控制的任务中取得了实质性的突破.尤其是一种被称为深度Q网络的模型在处理诸如Atari 2600游戏这类趋于真实环境的复杂问题时表现出了和人类玩家相媲美的水平.然而,当存在有延迟的奖赏而导致需要长时间步规划才能优化策略的情形中,深度Q网络的表现就会急剧下降.这说明深度Q网络并不擅长解决战略性深度强化学习任务.针对此问题,文中使用带视觉注意力机制的循环神经网络改进了传统的深度Q网络模型,提出了一种较为完善的深度强化学习模型.新模型的关键思想有两点:一是使用双层门限循环单元构成的循环神经网络模块来记忆较长时间步内的历史信息.这使得Agent能够及时使用有延迟的反馈奖赏来正确地指导下一步的动作选择;二是通过视觉注意力机制自适应地将注意力集中于面积较小但更具价值的图像区域,从而使得Agent能够更加高效地学习近似最优策略.该文通过选取一些经典的Atari 2600战略性游戏作为实验对象来评估新模型的有效性.实验结果表明,与传统的深度强化学习模型相比,新模型在一些战略性任务上具有很好的性能表现和较高的稳定性. 展开更多
关键词 深度学习 强化学习 深度强化学习 深度Q学习 循环神经网络 视觉注意力机制 人工智能
在线阅读 下载PDF
一种基于优先级的迭代划分测试方法 预览 被引量:3
5
作者 晓芳 +1 位作者 谢晓园 周谊成 《计算机学报》 EI CSCD 北大核心 2016年第11期2307-2323,共17页
随机测试和划分测试是两种重要的测试方法,关于两者在失效检测能力和效率方面的比较一直是软件测试领域的研究热点之一.适应性随机测试是对随机测试的一种增强,通过实现测试用例在输入域上的均勻分布,提高了随机测试的失效检测能力.该... 随机测试和划分测试是两种重要的测试方法,关于两者在失效检测能力和效率方面的比较一直是软件测试领域的研究热点之一.适应性随机测试是对随机测试的一种增强,通过实现测试用例在输入域上的均勻分布,提高了随机测试的失效检测能力.该文从划分测试出发,借鉴了均勻分布的思想,提出了一种基于优先级的迭代划分测试方法( Iterative Partition 丁esting based on Priority Sampling,IPT-PS).首先迭代戈|J分输入域并选取戈|J分后子域的中心点作为待执行的测试用例,随后采取优先级策略,将待执行的测试用例分为3 种不同优先等级并依次执行.迭代划分和中心采样仅需要已知输入域的空间信息,优先级执行则考虑了测试用例的不同空间特性,上述3 种操作均仅需要很少的时间开销并力求实现测试用例在输入域上的均勻分布,以提高失效检测能力.该文通过理论分析给出了IPT-PS检测出对应失效所需测试用例数量的上界,并通过一系列实验结果表明IPT-PS在仅使用接近随机测试时间开销的情况下,可以获得与适应性随机测试相近甚至更好的失效检测能力,是一种高效的测试方法. 展开更多
关键词 软件测试 划分测试 随机测试 适应性随机测试 测试用例生成 失效率 F-度量
在线阅读 下载PDF
一种近似模型表示的启发式Dyna优化算法 预览 被引量:3
6
作者 钟珊 刘全 +3 位作者 傅启明 朱斐 龚声蓉 《计算机研究与发展》 EI CSCD 北大核心 2015年第12期2764-2775,共12页
针对基于查询表的Dyna优化算法在大规模状态空间中收敛速度慢、环境模型难以表征以及对变化环境的学习滞后性等问题,提出一种新的基于近似模型表示的启发式Dyna优化算法(a heuristic Dyna optimization algorithm using approximate mo... 针对基于查询表的Dyna优化算法在大规模状态空间中收敛速度慢、环境模型难以表征以及对变化环境的学习滞后性等问题,提出一种新的基于近似模型表示的启发式Dyna优化算法(a heuristic Dyna optimization algorithm using approximate model representation,HDyna-AMR),其利用线性函数近似逼近Q值函数,采用梯度下降方法求解最优值函数.HDyna-AMR算法可以分为学习阶段和规划阶段.在学习阶段,利用agent与环境的交互样本近似表示环境模型并记录特征出现频率;在规划阶段,基于近似环境模型进行值函数的规划学习,并根据模型逼近过程中记录的特征出现频率设定额外奖赏.从理论的角度证明了HDyna-AMR的收敛性.将算法用于扩展的Boyan chain问题和Mountain car问题.实验结果表明,HDyna-AMR在离散状态空间和连续状态空间问题中能学习到最优策略,同时与Dyna-LAPS(Dyna-style planning with linear approximation and prioritized sweeping)和Sarsa(λ)相比,HDyna-AMR具有收敛速度快以及对变化环境的近似模型修正及时的优点. 展开更多
关键词 强化学习 模型学习 规划 函数逼近 机器学习
在线阅读 下载PDF
杂合启发式在线POMDP规划 预览 被引量:2
7
作者 陈小平 《软件学报》 EI CSCD 北大核心 2013年第7期1589-1600,共12页
许多不确定环境下的自主机器人规划任务都可以用部分可观察的马氏决采过程(partiallyobservableMarkovdecisionprocess,简称POMDP)建模.尽管研究者们在近似求解技术的设计方面已经取得了显著的进展,开发高效的POMDP规划算法依然是... 许多不确定环境下的自主机器人规划任务都可以用部分可观察的马氏决采过程(partiallyobservableMarkovdecisionprocess,简称POMDP)建模.尽管研究者们在近似求解技术的设计方面已经取得了显著的进展,开发高效的POMDP规划算法依然是一个具有挑战性的问题.以前的研究结果表明:在线规划方法能够高效地处理大规模的POMDP问题因而是一类具有研究前景的近似求解方法.这归因于它们采取的是“按需”作决策而不是预前对整个状态空间作决策的方式.旨在通过设计一个新颖的杂合启发式函数来进一步加速POMDP在线规划过程,该函数能够充分利用现有算法里一些被忽略掉的启发式信息.实现了一个新的杂合启发式在线规划(hybridheuristiconlineplanning,简称HHOP)算法.在一组POMDP基准问题上,HHOP有明显优于现有在线启发式搜索算法的实验性能. 展开更多
关键词 部分可观察的马氏决策过程 在线规划 杂合启发法
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部 意见反馈