期刊文献+
共找到306篇文章
< 1 2 16 >
每页显示 20 50 100
无模型强化学习研究综述 认领
1
作者 秦智慧 李宁 +3 位作者 刘晓彤 刘秀磊 佟强 刘旭红 《计算机科学》 北大核心 2021年第3期180-187,共8页
强化学习(Reinforcement Learning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与环境进行交互来学习,最终将累积收益最大化。常用的强化学习算法分为模型化强化学习(Model-based Reinforcement Lear-ning)... 强化学习(Reinforcement Learning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与环境进行交互来学习,最终将累积收益最大化。常用的强化学习算法分为模型化强化学习(Model-based Reinforcement Lear-ning)和无模型强化学习(Model-free Reinforcement Learning)。模型化强化学习需要根据真实环境的状态转移数据来预定义环境动态模型,随后在通过环境动态模型进行策略学习的过程中无须再与环境进行交互。在无模型强化学习中,智能体通过与环境进行实时交互来学习最优策略,该方法在实际任务中具有更好的通用性,因此应用范围更广。文中对无模型强化学习的最新研究进展与发展动态进行了综述。首先介绍了强化学习、模型化强化学习和无模型强化学习的基础理论;然后基于价值函数和策略函数归纳总结了无模型强化学习的经典算法及各自的优缺点;最后概述了无模型强化学习在游戏AI、化学材料设计、自然语言处理和机器人控制领域的最新研究现状,并对无模型强化学习的未来发展趋势进行了展望。 展开更多
关键词 人工智能 强化学习 深度强化学习 无模型强化学习 马尔可夫决策过程
在线阅读 免费下载
深度强化学习在智能制造中的应用展望综述 认领
2
作者 孔松涛 刘池池 +2 位作者 史勇 谢义 王堃 《计算机工程与应用》 北大核心 2021年第2期49-59,共11页
深度强化学习作为机器学习发展的最新成果,已经在很多应用领域崭露头角。关于深度强化学习的算法研究和应用研究,产生了很多经典的算法和典型应用领域。深度强化学习应用在智能制造中,能在复杂环境中实现高水平控制。对深度强化学习的... 深度强化学习作为机器学习发展的最新成果,已经在很多应用领域崭露头角。关于深度强化学习的算法研究和应用研究,产生了很多经典的算法和典型应用领域。深度强化学习应用在智能制造中,能在复杂环境中实现高水平控制。对深度强化学习的研究进行概述,对深度强化学习基本原理进行介绍,包括深度学习和强化学习。介绍深度强化学习算法应用的理论方法,在此基础对深度强化学习的算法进行了分类介绍,分别介绍了基于值函数和基于策略梯度的强化学习算法,列举了这两类算法的主要发展成果,以及其他相关研究成果。对深度强化学习在智能制造的典型应用进行分类分析。对深度强化学习存在的问题和未来发展方向进行了讨论。 展开更多
关键词 人工智能 深度强化学习 深度学习 强化学习 智能控制 智能制造
在线阅读 下载PDF
基于奖励高速路网络的多智能体强化学习中的全局信用分配算法 认领
3
作者 姚兴虎 谭晓阳 《计算机应用》 北大核心 2021年第1期1-7,共7页
针对多智能体系统中联合动作空间随智能体数量的增加而产生的指数爆炸的问题,采用“中心训练-分散执行”的框架来避免联合动作空间的维数灾难并降低算法的优化代价。针对在众多的多智能体强化学习场景下,环境仅给出所有智能体的联合行... 针对多智能体系统中联合动作空间随智能体数量的增加而产生的指数爆炸的问题,采用“中心训练-分散执行”的框架来避免联合动作空间的维数灾难并降低算法的优化代价。针对在众多的多智能体强化学习场景下,环境仅给出所有智能体的联合行为所对应的全局奖励这一问题,提出一种新的全局信用分配机制——奖励高速路网络(RHWNet)。通过在原有算法的奖励分配机制上引入奖励高速路连接,将每个智能体的值函数与全局奖励直接建立联系,进而使得每个智能体在进行策略选择时能够综合考虑全局的奖励信号与其自身实际分得的奖励值。首先,在训练过程中,通过中心化的值函数结构对每个智能体进行协调;同时,这一中心化的结构也能起到全局奖励分配的作用;然后,在中心值函数结构中引入奖励高速路链接来辅助进行全局奖励分配,从而构建出奖励高速路网络;之后,在执行阶段,每个智能体的策略仅仅依赖于其自身的值函数。在星际争霸多智能体挑战的微操作场景中的实验结果表明,相比当前较先进的反直觉的策略梯度(Coma)算法和单调Q值函数分解(QMIX)算法,该网络所提出的奖励高速路在4个复杂的地图上的测试胜率提升超过20%。更重要的是,在智能体数量较多且种类不同的3s5z和3s6z场景中,该网络在所需样本数量为QMIX和Coma等算法的30%的情况下便能取得更好的结果。 展开更多
关键词 深度学习 深度强化学习 多智能体强化学习 多智能体系统 全局信用分配
在线阅读 下载PDF
基于神经进化的深度学习模型研究综述 认领
4
作者 韩冲 王俊丽 +1 位作者 吴雨茜 张超波 《电子学报》 EI CAS 北大核心 2021年第2期372-379,共8页
深度学习研究发展至今已可以胜任各类识别、分类、生成任务,但是对于不同的任务,神经网络的结构或参数不可能只是微小的变化,依然需要专家进行调整.在这样的情况下,自动化地调整神经网络的结构或参数成为研究热点.其中,以达尔文自然进... 深度学习研究发展至今已可以胜任各类识别、分类、生成任务,但是对于不同的任务,神经网络的结构或参数不可能只是微小的变化,依然需要专家进行调整.在这样的情况下,自动化地调整神经网络的结构或参数成为研究热点.其中,以达尔文自然进化论为灵感的神经进化成为主要优化方法.利用神经进化优化的深度学习模型以种群为基础,通过突变、重组等操作进化,可实现自动地、逐步地构建神经网络并最终选择出性能最优的深度学习模型.本文简述了神经进化与进化计算;详细概述了各类基于神经进化的深度学习模型;分析了各类模型的性能;总结了神经进化与深度学习融合的前景并探讨下一步的研究方向. 展开更多
关键词 神经进化 深度学习 进化计算 卷积神经网络 生成式对抗网络 自动编码器 长短期记忆网络 深度强化学习
在线阅读 免费下载
一种深度强化学习的C-RAN动态资源分配方法 认领
5
作者 张永棠 《小型微型计算机系统》 北大核心 2021年第1期132-136,共5页
移动边缘计算(MEC)技术已成为云无线接入网(C-RAN)提供近距离服务的一个很有前途的例子,从而减少了服务延迟,节约了能源消耗.本文考虑一个多用户MEC系统,解决了计算卸载策略和资源分配策略问题.我们将延迟总成本和能耗作为优化目标,在... 移动边缘计算(MEC)技术已成为云无线接入网(C-RAN)提供近距离服务的一个很有前途的例子,从而减少了服务延迟,节约了能源消耗.本文考虑一个多用户MEC系统,解决了计算卸载策略和资源分配策略问题.我们将延迟总成本和能耗作为优化目标,在一个动态的环境中获得一个最优的策略.提出了一个基于深度强化学习的优化框架来解决资源分配问题,利用深度神经网络(DNN)对批评者的价值函数进行估计,从当前状态直接提取信息,不需要获取准确的信道状态.从而降低了优化目标的状态空间复杂度.参与者使用另一个DNN来表示参数随机策略,并在批评者的帮助下改进策略.仿真结果表明,与其它方案相比,该方案显著降低了总功耗. 展开更多
关键词 云无线接入网 移动边缘计算 深度神经网络 深度强化学习
MADDPG算法并行优先经验回放机制 认领
6
作者 高昂 董志明 +2 位作者 李亮 宋敬华 段莉 《系统工程与电子技术》 EI 北大核心 2021年第2期420-433,共14页
多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法是深度强化学习方法在多智能体系统(multi-agent system,MAS)领域的重要运用,为提升算法性能,提出基于并行优先经验回放机制的MADDPG算法。分... 多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法是深度强化学习方法在多智能体系统(multi-agent system,MAS)领域的重要运用,为提升算法性能,提出基于并行优先经验回放机制的MADDPG算法。分析算法框架及训练方法,针对算法集中式训练、分布式执行的特点,采用并行方法完成经验回放池数据采样,并在采样过程中引入优先回放机制,实现经验数据并行流动、数据处理模型并行工作、经验数据优先回放。分别在OpenAI多智能体对抗、合作两类典型环境中,从训练轮数、训练时间两个维度对改进算法进行了对比验证,结果表明,并行优先经验回放机制的引入使得算法性能提升明显。 展开更多
关键词 多智能体系统 深度强化学习 并行方法 优先经验回放 深度确定性策略梯度
在线阅读 下载PDF
基于深度强化学习的投资组合管理研究 认领
7
作者 王康 白迪 《现代计算机》 2021年第1期3-11,共9页
投资组合管理是金融投资领域最常遇到的问题之一,在给定一组投资组合资产下,投资者把资金按一定比例分别投资于不同资产上,以实现分散风险、提高收益的目的。深度强化学习是一门新兴的研究领域,目前已经成功达到或超过人类在玩Atari游... 投资组合管理是金融投资领域最常遇到的问题之一,在给定一组投资组合资产下,投资者把资金按一定比例分别投资于不同资产上,以实现分散风险、提高收益的目的。深度强化学习是一门新兴的研究领域,目前已经成功达到或超过人类在玩Atari游戏时的水平。深度强化学习的成功引起了金融界的广泛兴趣,我们考虑这些技术是否可以用于金融投资组合管理问题中。实现两种流行的深度强化学习算法——双延迟深度确定性策略梯度算法(TD3)和策略梯度算法(PG),并应用于中国市场龙头企业中成交量较大的5支股票和国债组成的资产包中。实验结果表示,TD3和PG算法在测试集上年利率分别可达84.71%和55.06%,明显高于其他对照组,充分证实深度强化学习在金融投资组合管理问题中的有效性。 展开更多
关键词 深度强化学习 投资组合管理 双延迟深度确定性策略梯度 策略梯度
在线阅读 免费下载
基于近端策略优化的作战实体博弈对抗算法 认领
8
作者 张振 黄炎焱 +1 位作者 张永亮 陈天德 《南京理工大学学报》 CAS 北大核心 2021年第1期77-83,共7页
针对一种大地图和稀疏奖励的兵棋推演对抗环境下,单纯的深度强化学习算法会导致训练无法快速收敛以及智能体对抗特定规则智能体胜率较低的问题,提出了一种基于监督学习和深度强化学习相结合以及设置额外奖励的方法,旨在提升智能博弈的... 针对一种大地图和稀疏奖励的兵棋推演对抗环境下,单纯的深度强化学习算法会导致训练无法快速收敛以及智能体对抗特定规则智能体胜率较低的问题,提出了一种基于监督学习和深度强化学习相结合以及设置额外奖励的方法,旨在提升智能博弈的训练效果。使用监督学习训练智能体;研究基于近端策略优化(Proximal policy optimization,PPO)的对抗算法;改进强化学习训练过程的额外奖励设置。以某在研兵棋推演环境为例的实验结果表明,该博弈对抗算法能使智能体在对抗其他智能体时的胜率稳步提升并在较短时间内达到收敛。 展开更多
关键词 兵棋推演 深度强化学习 监督学习 近端策略优化 稀疏奖励
在线阅读 下载PDF
基于深度强化学习的变电站巡检机器人自动化控制方法研究 认领
9
作者 董诗绘 牛彩雯 戴琨 《高压电器》 CAS 北大核心 2021年第2期172-177,共6页
针对变电站巡检机器人在传统运动规划方法下存在的难以规划出平滑路径、不确定环境下动作不可测等问题,提出研究不确定条件下的变电站巡检机器人运动规划问题的深度强化学习方法。文中分析了深度学习中奖励值模型II、探索策略和神经网... 针对变电站巡检机器人在传统运动规划方法下存在的难以规划出平滑路径、不确定环境下动作不可测等问题,提出研究不确定条件下的变电站巡检机器人运动规划问题的深度强化学习方法。文中分析了深度学习中奖励值模型II、探索策略和神经网络结构对整个运动规划的影响,设计了不同结构的神经网络,并开展了相关的对比实验。结果表明,在当前任务场景下,相同的运算量神经网络结构C2比神经网络结构C1和神经网络结构C3的计算时间要短。因此,在计算资源短缺时,建议采用神经网络结构C2,更有利于对变电站巡检机器人进行精准的运动规划,提高自动化控制效率。 展开更多
关键词 变电站巡检机器人 深度强化学习 自动化控制 神经网络结构 奖励值模型
基于深度增强学习的海克斯棋博弈算法研究 认领
10
作者 郑博宇 《科学与信息化》 2021年第2期57-58,共2页
本文旨在研究如何将深度强化学习的算法模型合理地应用在海克斯棋博弈算法的研究中,同时根据方案合理实现程序。以Q Learning与CNN卷积神经网络结合的方式,海克斯棋在博弈的过程中,选择更优的策略,不断调整参数,提高海克斯器博弈的能力... 本文旨在研究如何将深度强化学习的算法模型合理地应用在海克斯棋博弈算法的研究中,同时根据方案合理实现程序。以Q Learning与CNN卷积神经网络结合的方式,海克斯棋在博弈的过程中,选择更优的策略,不断调整参数,提高海克斯器博弈的能力。经过实验和训练发现,利用Deep-Q learning深度强化学习的方式,可以有效地评估棋局并选择合理的落子位置,决策能力提升的同时,海克斯棋的博弈能力也在提升。 展开更多
关键词 深度强化学习 海克斯棋 计算机博弈 卷积神经网络
在线阅读 免费下载
基于深度强化学习的交易模型风险控制算法 认领
11
作者 王炜鹏 《现代计算机》 2021年第3期42-47,共6页
中国股市大部分时间都处于震荡趋势,在日内高频交易中,震荡趋势更加明显。网格交易算法是在震荡趋势中具有明显优势的量化交易方法。基于深度强化学习的交易模型风险控制算法利用网格交易算法的思想构建动作集合与回报函数,可以控制交... 中国股市大部分时间都处于震荡趋势,在日内高频交易中,震荡趋势更加明显。网格交易算法是在震荡趋势中具有明显优势的量化交易方法。基于深度强化学习的交易模型风险控制算法利用网格交易算法的思想构建动作集合与回报函数,可以控制交易风险,降低最大回撤率。将基于深度强化学习的交易模型风险控制算法应用于日内高频交易中,并与基准交易策略和传统强化学习方法相比较,获得0.69的夏普比率和2.3%的最大回撤率,证明此方法在风险控制上是有效的。 展开更多
关键词 量化交易 深度强化学习 高频交易
在线阅读 免费下载
基于深度随机博弈的近距空战机动决策 认领
12
作者 马文 李辉 +3 位作者 王壮 黄志勇 吴昭欣 陈希亮 《系统工程与电子技术》 EI 北大核心 2021年第2期443-451,共9页
针对空战中作战信息复杂、难以快速准确地感知态势做出决策的问题,提出一种博弈论与深度强化学习相结合的算法。首先,依据一对一典型空战流程,以随机博弈为标准,构建近距空战中红蓝双方对抗条件下的双机多状态博弈模型。其次,利用深度Q... 针对空战中作战信息复杂、难以快速准确地感知态势做出决策的问题,提出一种博弈论与深度强化学习相结合的算法。首先,依据一对一典型空战流程,以随机博弈为标准,构建近距空战中红蓝双方对抗条件下的双机多状态博弈模型。其次,利用深度Q网络(deep Q network,DQN)处理战机的连续无限状态空间。然后,使用Minimax算法构建线性规划来求解每个特定状态下阶段博弈的最优值函数,并训练网络逼近值函数。最后,训练完成后根据网络输出求得最优机动策略。空战仿真实验表明,该算法具有较好的适应性和智能性,能够有效地针对空战对手的行动策略实时选择有利的机动动作并占据优势地位。 展开更多
关键词 博弈论 深度强化学习 随机博弈 空战决策
在线阅读 下载PDF
引入深度强化学习思想的脑-机协作精密操控方法 认领
13
作者 张腾 张小栋 +3 位作者 张英杰 陆竹风 朱文静 蒋永玉 《西安交通大学学报》 EI CAS 北大核心 2021年第2期1-9,共9页
针对精密操控中人-机之间缺乏信息双向交互,以及人的精神状态变化会严重影响肢体操控的精度和安全性等问题,提出了一种引入深度强化学习思想的脑-机协作精密操控方法。首先,结合人在上层规划与机器在精细控制上的各自优势,建立由主动操... 针对精密操控中人-机之间缺乏信息双向交互,以及人的精神状态变化会严重影响肢体操控的精度和安全性等问题,提出了一种引入深度强化学习思想的脑-机协作精密操控方法。首先,结合人在上层规划与机器在精细控制上的各自优势,建立由主动操控和被动调控组成的双环路人-机信息交互机制;其次,引入深度强化学习思想,从蒙特卡罗采样原理出发,以表征精神状态的脑电信号(EEG)作为模型的输入,以机器人速度指令作为模型的输出,推导出脑-机协作方法的数学模型;再次,建立具有3个全连接层的精神状态感知网络,从脑-机接口系统的实时监测计算机内存中提取最后1000 ms的EEG作为输入信号,设计开发脑-机协作精密操控算法。最后,创建轨迹跟踪虚拟环境和任务场景,对脑-机协作精密操控方法进行了实验验证,结果表明:该方法在轨迹跟踪任务的控制精度和完成时间指标上均得到了提高;相较于传统方法,该方法的平均轨迹跟踪精度和完成时间指标分别提高了36.55%和22.81%。 展开更多
关键词 脑-机协作 深度强化学习 脑-机接口 轨迹跟踪 精密操控
在线阅读 下载PDF
DDPG算法在实现无人车快速控制的研究 认领
14
作者 朱坚 宋晓茹 +1 位作者 高嵩 高泽鹏 《自动化与仪表》 2021年第1期31-35,共5页
大多传统的无人车控制算法需要人为调整参数,需要算法设计精确规则,无法快速适应多种情况。针对上述问题,该文采用深度强化学习对无人车的方向、速度和刹车三方面进行控制,让无人车自主学习,自主调参。该文重点通过改进OU噪声信号和设... 大多传统的无人车控制算法需要人为调整参数,需要算法设计精确规则,无法快速适应多种情况。针对上述问题,该文采用深度强化学习对无人车的方向、速度和刹车三方面进行控制,让无人车自主学习,自主调参。该文重点通过改进OU噪声信号和设计网络结构,实现对无人车的快速控制。在TORCS无人车模拟器的仿真结果表明,改进后的方法误差曲线可以快速的收敛,有效解决了传统无人车控制耗时耗力的问题,对无人车的控制研究有重要的意义。 展开更多
关键词 无人车 深度强化学习 TORCS OU噪声 网络结构
在线阅读 下载PDF
基于SAC算法的矿山应急救援智能车快速避障控制 认领
15
作者 单麒源 张智豪 +1 位作者 张耀心 余宗祥 《黑龙江科技大学学报》 CAS 2021年第1期14-20,共7页
针对传统反应式避障算法存在灵活度差及普适性不足的问题,提出Soft Actor-Critic深度强化学习算法的快速避障方法。通过分析SAC算法的框架及更新策略,采用ROS和RVIZ搭建实验仿真环境,优化SAC算法的状态输入,利用灾后中部车场、下部车场... 针对传统反应式避障算法存在灵活度差及普适性不足的问题,提出Soft Actor-Critic深度强化学习算法的快速避障方法。通过分析SAC算法的框架及更新策略,采用ROS和RVIZ搭建实验仿真环境,优化SAC算法的状态输入,利用灾后中部车场、下部车场虚拟环境对智能体分别进行训练和验证。结果表明,SAC算法优化后,GPU计算速度和算法添加噪声会导致智能体奖励值出现波动,但最终奖励值趋于稳定,改善了优化前越训练奖励值越低的问题,使避障性能大幅度提升,为实现矿山应急救援智能车快速避障控制提供研究基础。 展开更多
关键词 矿山应急救援 深度强化学习 反应式避障 SAC算法
在线阅读 下载PDF
基于深度强化学习的智能机器人避障决策模型 认领
16
作者 凌涛 《新乡学院学报》 2021年第3期64-67,共4页
神经网络算法避障决策模型的权值训练不理想,会导致智能机器人避障决策精度差,故设计一种基于深度强化学习的智能机器人避障决策模型。首先,根据机器人的位置建立绝对坐标系和相对坐标系,分析其运动状态,求解机器人中心点的运动速度。其... 神经网络算法避障决策模型的权值训练不理想,会导致智能机器人避障决策精度差,故设计一种基于深度强化学习的智能机器人避障决策模型。首先,根据机器人的位置建立绝对坐标系和相对坐标系,分析其运动状态,求解机器人中心点的运动速度。其次,通过马尔科夫决策序列的迭代过程,建立深度强化学习卷积网络模型,并设置模型中各层的参数。最后,使用深度强化学习算法对模型进行训练并设置奖惩函数。避障实验结果表明:在单一方向存在障碍物的情况下,所设计的模型与传统模型均有较好的避障精度;在多方向存在障碍物以及复杂环境下,所设计模型可提高机器人的避障精度。 展开更多
关键词 深度强化学习 机器人避障 决策模型
在线阅读 下载PDF
基于深度强化学习的自动驾驶技术研究 认领 被引量:1
17
作者 杨霄 李晓婷 《网络安全技术与应用》 2021年第1期136-138,共3页
传统的自动驾驶行为决策算法需要人为设定复杂的规则,从而导致车辆决策时间长、决策效果不佳、对于新的环境不具有适应性,而强化学习作为近年来机器学习和智能控制领域的主要方法之一,车辆仅通过与环境交互便可以学习到合理、有效的策... 传统的自动驾驶行为决策算法需要人为设定复杂的规则,从而导致车辆决策时间长、决策效果不佳、对于新的环境不具有适应性,而强化学习作为近年来机器学习和智能控制领域的主要方法之一,车辆仅通过与环境交互便可以学习到合理、有效的策略。本文基于DDPG(Deep Deterministic Policy Gradient)算法,通过设计合理的奖励函数、深度卷积网络、探索策略,在Carla模拟器中实现指定路线的自动驾驶。 展开更多
关键词 自动驾驶 深度强化学习 行为决策
基于深度强化学习的财务异常数据检测系统设计 认领
18
作者 王亚林 安新艳 《电子设计工程》 2021年第3期70-73,78,共5页
针对医疗财务系统中数据规模庞大,而传统的数据检测手段难以发现其中细微异常数据的问题,设计了一套智能化的异常数据检测系统。该系统通过对异常数据的模式分析,并基于差异分析与全局分析的融合检测原理,实现了在海量数据中对细微异常... 针对医疗财务系统中数据规模庞大,而传统的数据检测手段难以发现其中细微异常数据的问题,设计了一套智能化的异常数据检测系统。该系统通过对异常数据的模式分析,并基于差异分析与全局分析的融合检测原理,实现了在海量数据中对细微异常数据的精确检测。在该检测系统的总体框架下,采用Wolpertinger架构,分别设计了作动网络、K近邻网络与评价网络,最终建立了基于深度强化学习的数据挖掘算法。数据测试实验结果表明,该系统的异常数据检测准确度可达99%以上,在较长的测试时间内运行稳定,性能良好。 展开更多
关键词 深度强化学习 异常数据 K近邻 融合检测
在线阅读 下载PDF
基于深度强化学习的云边协同计算迁移研究 认领
19
作者 陈思光 陈佳民 赵传信 《电子学报》 EI CAS 北大核心 2021年第1期157-166,共10页
基于单一边缘节点计算、存储资源的有限性及大数据场景对高效计算服务的需求,本文提出了一种基于深度强化学习的云边协同计算迁移机制.具体地,基于计算资源、带宽和迁移决策的综合性考量,构建了一个最小化所有用户任务执行延迟与能耗权... 基于单一边缘节点计算、存储资源的有限性及大数据场景对高效计算服务的需求,本文提出了一种基于深度强化学习的云边协同计算迁移机制.具体地,基于计算资源、带宽和迁移决策的综合性考量,构建了一个最小化所有用户任务执行延迟与能耗权重和的优化问题.基于该优化问题提出了一个异步云边协同的深度强化学习算法,该算法充分利用了云边双方的计算能力,可有效满足大数据场景对高效计算服务的需求;同时,面向边缘云中边缘节点所处环境的多样及动态变化性,该算法能自适应地调整迁移策略以实现系统总成本的最小化.最后,大量的仿真结果表明本文所提出的算法具有收敛速度快、鲁棒性高等特点,并能够以最低的计算成本获得近似贪心算法的最优迁移决策. 展开更多
关键词 深度强化学习 边缘计算 计算迁移 资源分配 能量消耗
在线阅读 免费下载
移动边缘计算中基于深度强化学习的计算卸载调度方法 认领
20
作者 詹文翰 王瑾 +2 位作者 朱清新 段翰聪 叶娅兰 《计算机应用研究》 北大核心 2021年第1期241-245,263,共6页
针对移动边缘计算中具有依赖关系的任务的卸载决策问题,提出一种基于深度强化学习的任务卸载调度方法,以最小化应用程序的执行时间。任务调度的过程被描述为一个马尔可夫决策过程,其调度策略由所提出的序列到序列深度神经网络表示,并通... 针对移动边缘计算中具有依赖关系的任务的卸载决策问题,提出一种基于深度强化学习的任务卸载调度方法,以最小化应用程序的执行时间。任务调度的过程被描述为一个马尔可夫决策过程,其调度策略由所提出的序列到序列深度神经网络表示,并通过近端策略优化(proximal policy optimization)方法进行训练。仿真实验表明,所提出的算法具有良好的收敛能力,并且在不同环境下的表现均优于所对比的六个基线算法,证明了该方法的有效性和可靠性。 展开更多
关键词 移动边缘计算 计算卸载 任务调度 深度强化学习
在线阅读 下载PDF
上一页 1 2 16 下一页 到第
使用帮助 返回顶部 意见反馈