期刊文献+
共找到256篇文章
< 1 2 13 >
每页显示 20 50 100
基于CUDA与CUBLAS的Tucker分解模块设计与实现 预览
1
作者 周琦 柴小丽 +1 位作者 马克杰 俞则人 《计算机工程》 CAS CSCD 北大核心 2019年第3期41-46,共6页
由于张量Tucker分解在图像处理、人脸识别与信号处理等领域中的大量应用,使得Tucker分解算法成为目前重点研究对象。但是当前流行的Tucker分解算法需要对张量进行多次展开,导致算法加速效率降低。针对上述问题,提出一种应用于统一计算... 由于张量Tucker分解在图像处理、人脸识别与信号处理等领域中的大量应用,使得Tucker分解算法成为目前重点研究对象。但是当前流行的Tucker分解算法需要对张量进行多次展开,导致算法加速效率降低。针对上述问题,提出一种应用于统一计算设备架构(CUDA)平台上的改进Tucker分解模块,通过对Tucker分解算法与CUDA平台进行优化,在省略张量展开过程的同时,提高加速效率,从而降低对加速系统的要求。实验结果表明,改进Tucker分解算法在CUDA平台上的加速性能具有明显提高。 展开更多
关键词 Tucker分解算法 张量分解 统一计算设备架构 图形处理单元 张量范数
在线阅读 下载PDF
基于GPU的自适应邻域压缩禁忌搜索的软硬件划分算法
2
作者 侯能 何发智 +1 位作者 周毅 陈壹林 《中国科学:信息科学》 CSCD 北大核心 2018年第8期978-999,共22页
软硬件划分是软硬件协同设计中的关键步骤,决定了哪些功能由硬件执行,哪些功能由软件执行.软硬件划分属于NP难问题.现代嵌入式系统的复杂性提高,造成软硬件划分问题规模变大,需要采用启发式方法求解.禁忌搜索是求解软硬件划分的有效方法... 软硬件划分是软硬件协同设计中的关键步骤,决定了哪些功能由硬件执行,哪些功能由软件执行.软硬件划分属于NP难问题.现代嵌入式系统的复杂性提高,造成软硬件划分问题规模变大,需要采用启发式方法求解.禁忌搜索是求解软硬件划分的有效方法.然而,算法的求解过程非常耗时.已有的禁忌搜索求解软硬件划分是串行实现,要折中考虑解的质量和算法的运行时间.这种考虑牺牲了解的质量.本文提出基于GPU的自适应邻域压缩(compacting neighborhood)禁忌搜索的软硬件划分算法.首先,提出自适应策略.自适应策略能够增强算法的搜索集中性,提高解的质量.GPU的大规模并行特性可以降低算法的运行时间.其次,为了使算法在GPU上高效地执行,提出基于GPU的任务图表达、线程–候选解映射、数据布局和访存等一系列优化策略.最后,实验采用统一设备架构(CUDA)编程,并根据相关基准任务图,通过不同的计算–通信比和实时约束条件,对提出的方法进行验证.结果表明,本文方法的解质量要优于已有的方法.对比将自适应邻域压缩禁忌搜索自然移植到GPU后的运行时间,提出的GPU上的执行优化策略明显地降低了求解时间.另外,在更大规模的软硬件划分上验证了基于GPU的方法在时间上的优势. 展开更多
关键词 软硬件协同设计 启发式方法 图形处理单元 禁忌搜索 自适应算法
一种基于GPU的实时软件接收机协同调度方法 预览
3
作者 陈思业 《电子设计工程》 2018年第21期30-33,37共5页
本文基于实现实时导航卫星软件接收机的目的,采用中央处理单元(CPU)和图形处理单元(GPU)的协同调度方法,利用GPU的多核并行处理性能,通过对导航卫星软件接收机的信号并行化处理,结合信号处理时负载任务的历史信息,提出了一种动态的... 本文基于实现实时导航卫星软件接收机的目的,采用中央处理单元(CPU)和图形处理单元(GPU)的协同调度方法,利用GPU的多核并行处理性能,通过对导航卫星软件接收机的信号并行化处理,结合信号处理时负载任务的历史信息,提出了一种动态的调度方法,该方法根据估计时间信息在CPU和GPU之间选择合适的设备来执行任务。所提出的方法在CUDA平台上对软件接收机中的信号进行处理,得出基于时间估算的协同调度算法能满足实时软件接收机的需求的结论。 展开更多
关键词 软件接收机 图形处理单元 协同调度 CUDA
在线阅读 下载PDF
混合并行两步调整遗传策略的软硬件划分算法 被引量:1
4
作者 侯能 何发智 《华中科技大学学报:自然科学版》 CSCD 北大核心 2017年第12期39-45,共7页
为了提高软硬件划分方法的效率,针对已有遗传算法求解软硬件划分没有结合特定问题处理、不满足约束个体的不足,提出一种混合并行的两步调整遗传算法.采用两步调整策略将不满足约束的个体转换为可行个体,当提高方法的运行效率时,图形处... 为了提高软硬件划分方法的效率,针对已有遗传算法求解软硬件划分没有结合特定问题处理、不满足约束个体的不足,提出一种混合并行的两步调整遗传算法.采用两步调整策略将不满足约束的个体转换为可行个体,当提高方法的运行效率时,图形处理单元用于计算每个个体的硬件耗费、软件耗费和通信耗费,多核CPU(中央处理器)用于并行执行个体间的调整,流并发传输策略进一步减少CPU和GPU(图形处理器)之间的传输开销.在基准数据集上,与求解该问题的已有方法相比,运行时间和求解质量都有明显优势.实验结果验证了该方法的有效性和合理性. 展开更多
关键词 软硬件划分 遗传算法 两步调整 图形处理单元 多核CPU
空谱联合的核光谱角异常检测及GPU实现 预览 被引量:1
5
作者 赵春晖 李佳伟 +1 位作者 刘务 田明华 《哈尔滨工程大学学报》 CSCD 北大核心 2017年第9期1497-1504,共8页
针对高光谱图像空间信息利用不充分影响检测性能的问题,本文提出结合高光谱图像空间信息与光谱信息的异常目标检测算法。该算法无需假设背景模型,通过计算待检测像元与其空间邻域像元的核光谱角累加和,初步得到每个像元的异常程度。利... 针对高光谱图像空间信息利用不充分影响检测性能的问题,本文提出结合高光谱图像空间信息与光谱信息的异常目标检测算法。该算法无需假设背景模型,通过计算待检测像元与其空间邻域像元的核光谱角累加和,初步得到每个像元的异常程度。利用扩展形态学的腐蚀操作进行异常修正,有效去除噪声干扰,并降低虚警率,从而得到最终的异常检测结果。为提高算法的执行效率,本文进一步提出了基于GPU/CUDA模型下的并行优化处理方法。通过仿真实验证明,该算法在保证较高检测精度的同时,充分利用GPU的并行特性,明显缩减了检测时间。 展开更多
关键词 高光谱图像 异常检测 核光谱角 空谱联合 数学形态学 图形处理单元 统一设备架构 并行处理
在线阅读 下载PDF
采用向量内积的并行相关算法 预览
6
作者 牟卫华 倪少杰 +2 位作者 孙广富 欧钢 白洋 《国防科技大学学报》 CSCD 北大核心 2017年第5期50-55,共6页
针对软件接收机相关器计算的实时性问题,通过分析扩频信号的接收过程,建立一种基于向量内积的并行相关信号接收模型。利用图形处理单元中大量的浮点运算单元进行矩阵与向量运算,并行计算各通道相关值,提高了信号相关运算的实时性。... 针对软件接收机相关器计算的实时性问题,通过分析扩频信号的接收过程,建立一种基于向量内积的并行相关信号接收模型。利用图形处理单元中大量的浮点运算单元进行矩阵与向量运算,并行计算各通道相关值,提高了信号相关运算的实时性。仿真验证结果表明,利用基于GPU的向量内积软件并行相关算法计算25MHz采样率时长1mS的信号相关值,25个通道共150个相关运算耗时967us,与CPU上基于数学核心函数库的实现相比速度约提高了61.4倍,能够实现宽带扩频信号软件实时相关接收。 展开更多
关键词 相关器 向量内积 软件接收机 并行计算 图形处理单元
在线阅读 下载PDF
Understanding co-run performance on CPU-GPU integrated processors: observations, insights, directions
7
作者 Qi ZHU Bo WU +3 位作者 Xipeng SHEN Kai SHEN Li SHEN Zhiying WANG 《中国计算机科学前沿:英文版》 SCIE EI CSCD 2017年第1期130-146,共17页
关键词 中央处理 经营业绩 集成 图形处理单元 数据复制 性能影响 操作系统 定时机制
Fast parallel Grad-Shafranov solver for real-time equilibrium reconstruction in EAST tokamak using graphic processing unit
8
作者 黄耀 肖炳甲 罗正平 《中国物理B:英文版》 SCIE EI CAS CSCD 2017年第8期276-283,共8页
To achieve real-time control of tokamak plasmas, the equilibrium reconstruction has to be completed sufficiently quickly. For the case of an EAST tokamak experiment, real-time equilibrium reconstruction is generally r... To achieve real-time control of tokamak plasmas, the equilibrium reconstruction has to be completed sufficiently quickly. For the case of an EAST tokamak experiment, real-time equilibrium reconstruction is generally required to provide results within 1ms. A graphic processing unit(GPU) parallel Grad–Shafranov(G-S) solver is developed in P-EFIT code,which is built with the CUDA? architecture to take advantage of massively parallel GPU cores and significantly accelerate the computation. Optimization and implementation of numerical algorithms for a block tri-diagonal linear system are presented. The solver can complete a calculation within 16 μs with 65×65 grid size and 27 μs with 129×129 grid size, and this solver supports that P-EFIT can fulfill the time feasibility for real-time plasma control with both grid sizes. 展开更多
关键词 EAST装置 图形处理单元 实时控制 平衡重 并行 托卡马克等离子体 托卡马克实验 网格尺寸
三维不规则窦房结电生理模型的建立及其图形实现 预览
9
作者 张虹 刘袁 +1 位作者 刘炀 金印彬 《西安交通大学学报》 CSCD 北大核心 2017年第5期43-47,共5页
针对窦房结三维电生理建模复杂、仿真运算量大等问题,提出了一种有效的解决方法。首先利用建模软件建立右心房三维不规则立体模型,再利用网格划分软件剖分为四面体网格,最后根据网格的位置赋予窦房结和心房细胞属性建立电生理模型。数... 针对窦房结三维电生理建模复杂、仿真运算量大等问题,提出了一种有效的解决方法。首先利用建模软件建立右心房三维不规则立体模型,再利用网格划分软件剖分为四面体网格,最后根据网格的位置赋予窦房结和心房细胞属性建立电生理模型。数值解算时采用算子分裂法和有限体积法,分别对反应-扩散方程和单纯描述电扩布的微分方程进行了处理,同时利用高性能图形处理单元(GPU)在CUDA(compute unified device architecture)编程环境下实现程序的并行加速。另外,从减少CPU和GPU间的数据交换频率、参量存储方式等多方面对程序加以优化。计算结果表明,所建模型无论是单细胞动作电位还是膜电位的传导均符合正常的电生理特征。通过与串行程序及基于4核8线程CPU编写的共享内存式OpenMP并行程序进行比较,基于GPU的CUDA程序可将运行耗时减少90%以上,CPU和GPU间的数据交换仅占总耗时的3%,且组织模型越大,网格划分越细致,GPU的加速效果愈显著。 展开更多
关键词 图形处理单元 并行计算 窦房结 有限体积法
在线阅读 下载PDF
基于GPU的SVM参数优化并行算法 预览 被引量:1
10
作者 唐美丽 张劲松 +1 位作者 李璐 马廷淮 《江苏大学学报:自然科学版》 CSCD 北大核心 2017年第5期576-581,共6页
为了缩短支持向量机(support vector machine,SVM)参数优化时长,提高SVM参数优化的效率,提出了基于图形处理单元(graphic processing unit,GPU)的SVM参数优化并行算法.分析了基于网格搜索和粒子群优化算法的并行特性,基于GPU设计了... 为了缩短支持向量机(support vector machine,SVM)参数优化时长,提高SVM参数优化的效率,提出了基于图形处理单元(graphic processing unit,GPU)的SVM参数优化并行算法.分析了基于网格搜索和粒子群优化算法的并行特性,基于GPU设计了该优化算法的并行化方案,并在单GeForce GT 650M GPU卡上进行了试验验证.结果表明,并行化网格搜索和并行化粒子群参数优化算法不仅可以取得与非并行化参数优化算法相同的优化效果,而且执行时间大大减小,其中并行粒子群参数优化算法的加速比可高达26.85,大幅提升了SVM的参数优化效率. 展开更多
关键词 图形处理单元 支持向量机 网格搜索算法 粒子群优化算法 参数优化
在线阅读 免费下载
MS图像分割在GPU和多核CPU上运行性能研究 预览
11
作者 蔡鹏飞 张正本 赵丽 《湘潭大学自然科学学报》 北大核心 2017年第4期103-106,共4页
为了获取快速、准确和可扩展的图像分割软件模块,根据并行稀疏基本线性代数子方程(PSBLAS)提出了一种图像分割的并行软件模块,即并行稀疏矩阵计算的公共库.该库采用了图形处理单元(GPU)的扩展版本,解决了稀疏线性三角矩阵在GPU上的应用... 为了获取快速、准确和可扩展的图像分割软件模块,根据并行稀疏基本线性代数子方程(PSBLAS)提出了一种图像分割的并行软件模块,即并行稀疏矩阵计算的公共库.该库采用了图形处理单元(GPU)的扩展版本,解决了稀疏线性三角矩阵在GPU上的应用,使得图像分割算法可以有效且透明地使用多模块并行结构.实验的每个计算节点由2个8核CPUIntelSandyBridgeE52670和192GB的RAM构成,各节点均配备了一个GPUNVIDIAK20,较大尺寸图像的快速精确分割验证了提出方案的有效性.同时,GPU和多核CPU上执行算法的加速比结果显示了加速比与内存边界的应用相关. 展开更多
关键词 图像分割 图形处理单元 并行结构 加速比 稀疏矩阵
在线阅读 免费下载
基于CUDA的单形体增长并行端元提取 预览
12
作者 邹佳林 赵辽英 +1 位作者 厉小润 陈小芬 《计算机工程与设计》 北大核心 2017年第11期3179-3184,共6页
针对快速单形体体积增长法(FNSGA)需多次遍历所有像元造成时间复杂度较高的问题及FNSGA算法具有并行性高的特点,研究基于统一计算设备构架CUDA的FNSGA并行计算。设计基于CUDA的FNSGA并行计算流程,实现关键步骤的并行设计,提出代码实现... 针对快速单形体体积增长法(FNSGA)需多次遍历所有像元造成时间复杂度较高的问题及FNSGA算法具有并行性高的特点,研究基于统一计算设备构架CUDA的FNSGA并行计算。设计基于CUDA的FNSGA并行计算流程,实现关键步骤的并行设计,提出代码实现的3种策略,即Matlab代码直接转换设计、循环展开优化、使用CUBLAS库,分析端元个数对于基于GPU的FNSGA代码的影响。真实高光谱图像端元提取实验结果表明,与CPU串行相比,几种CUDA并行计算都能提高运算速度,其中使用CUBLAS库的运算速度提高了100倍左右。 展开更多
关键词 遥感 端元提取 并行计算 统一计算设备架构 图形处理单元
在线阅读 下载PDF
MicrochiP推出业界首款具有集成2DGPU和集成DDR2存储器的MCU 预览
13
《中国集成电路》 2017年第7期6-7,共2页
美国微芯科技公司(Microchip)日前宣布推出32位PIC32MZDA单片机(MCU)系列,这是业界首款具有集成2D图形处理单元(GPU)和高达32MB集成DDR2存储器的MCU。
关键词 MICROCHIP DDR2 MCU 存储器 集成 美国微芯科技公司 图形处理单元 单片机
在线阅读 下载PDF
GPU支持的低延迟引力波数据处理 被引量:1
14
作者 都志辉 温琳清 《中国科学:物理学、力学、天文学》 CSCD 北大核心 2017年第1期73-85,共13页
只有快速识别出引力波信号,才可以制导电磁望远镜及时探测到相关的电磁信号,对于全面了解引力波源所发生的天体物理过程,具有十分重要的科学意义.本文针对在激光干涉引力波天文台(Laser Interferometer Gravitational.Wave Observ... 只有快速识别出引力波信号,才可以制导电磁望远镜及时探测到相关的电磁信号,对于全面了解引力波源所发生的天体物理过程,具有十分重要的科学意义.本文针对在激光干涉引力波天文台(Laser Interferometer Gravitational.Wave Observatory,LIG01在线运行的并行求和无限冲击响应滤波(Summed Parallel Infinite Impulse Response,SPIIR)流水线数据处理系统,具体介绍了如何在图形处理单元(Graphics Processing Unit,GPU)上采用多种性能优化手段,大幅度提高其数据处理的速度来满足LIGO低延迟实时数据处理的要求.并进一步描述了如何在高新LIGO(Advanced LIGO)基础上实现极低延迟数据处理的计算方法、性能优化方法与相关的工具支持. 展开更多
关键词 引力波 数据处理 并行计算 图形处理单元
基于GPU的长码直接捕获方法
15
作者 牟卫华 唐小妹 +2 位作者 马春江 欧钢 王飞雪 《中国科学:信息科学》 CSCD 北大核心 2017年第7期928-939,共12页
针对长周期伪码扩频信号的捕获问题,分析了局部相关的码相位空间捕获模型和FFT实现方法.为了能够对数据处理任务进行分割处理,充分利用GPU加速FFT运算,本文研究了部分重叠局部相关长码直接捕获算法,提出了基于GPU的全局直接搜索和分段... 针对长周期伪码扩频信号的捕获问题,分析了局部相关的码相位空间捕获模型和FFT实现方法.为了能够对数据处理任务进行分割处理,充分利用GPU加速FFT运算,本文研究了部分重叠局部相关长码直接捕获算法,提出了基于GPU的全局直接搜索和分段重叠搜索长码直接捕获方法.该方法利用FFT并行搜索伪码相位,在GPU中批处理加速FFT运算.实验结果表明,相比CPU实现的方法,基于GPU的长码直接捕获方法显著提高了捕获速度. 展开更多
关键词 图形处理单元 并行计算 长码 直接捕获 快速FOURIER变换
Accelerating electron tomography reconstruction algorithm ICON with GPU
16
作者 Yu Chen Zihao Wang +4 位作者 Jingrong Zhang Lun Li Xiaohua Wan Fei Sun Fa Zhang 《生物物理学报:英文版》 CSCD 2017年第1期36-42,共7页
关键词 GPU 图标 重建算法 断层成像 电子 细胞超微结构 迭代优化算法 图形处理单元
基于GPU的生物大分子计算平台的构建与优化 预览
17
作者 俞伟 宁璐璐 许菲 《食品与生物技术学报》 CSCD 北大核心 2017年第10期1101-1105,共5页
通过生物大分子计算平台对分子动力学的模拟运算,计算值可以描述分子的运动轨迹,从而揭示原子间的内在关系,但这一过程较为复杂且昂贵。作者研究了较低投入下大分子计算平台的构建与优化,在并行GPU条件和CUDA体系下使用AMBER软件包完成... 通过生物大分子计算平台对分子动力学的模拟运算,计算值可以描述分子的运动轨迹,从而揭示原子间的内在关系,但这一过程较为复杂且昂贵。作者研究了较低投入下大分子计算平台的构建与优化,在并行GPU条件和CUDA体系下使用AMBER软件包完成分子动力学的模拟运算。通过对两个大分子体系的运算,实验结果表明计算平台达到了60倍的计算加速,实现了较高的加速性能,完成了高性价比的高性能计算平台的建设。 展开更多
关键词 生物大分子 分子动力学 计算加速 图形处理单元
在线阅读 下载PDF
一种三维地面场景SAR回波仿真的快速实现方法 预览 被引量:4
18
作者 景国彬 张云骥 +2 位作者 孙光才 邢孟道 保铮 《西安电子科技大学学报》 CSCD 北大核心 2017年第3期1-7,共7页
针对三维地面场景合成孔径雷达回波仿真中存在计算量巨大的问题,提出了一种基于图形处理单元的合成孔径雷达回波快速仿真方法.首先,采用分形布朗运动模型对数字高程模型数据进行分形插值处理;再对插值后的数据进行小面元剖分并计算... 针对三维地面场景合成孔径雷达回波仿真中存在计算量巨大的问题,提出了一种基于图形处理单元的合成孔径雷达回波快速仿真方法.首先,采用分形布朗运动模型对数字高程模型数据进行分形插值处理;再对插值后的数据进行小面元剖分并计算了剖分后小面元的后向散射系数;接着利用改进的下视角比较法对三维场景的阴影遮挡进行快速判断;最后详细分析了回波仿真过程中的3个并行层次,设计了核函数,并利用线程外推和归约相加的计算方法,实现了图形处理单元编程架构下三维场景合成孔径雷达回波的快速仿真.利用这种方法对实测数字高程模型数据进行了回波仿真和成像处理,验证了该方法的正确性和高效性. 展开更多
关键词 三维地面 合成孔径雷达 分形布朗运动模型 阴影遮挡 图形处理单元
在线阅读 下载PDF
基于功率谱的高精度大气湍流相位屏的快速模拟 被引量:1
19
作者 张智露 蔡冬梅 +1 位作者 贾鹏 韦宏艳 《激光与光电子学进展》 CSCD 北大核心 2017年第2期73-81,共9页
分析了基于非均匀采样功率谱反演大气湍流相位屏的算法,该算法可进行并行处理,并引入图形处理单元(GPU),在不影响模拟精度的前提下有效提高了相位屏的模拟速度。利用Kolmogorov功率谱,基于GPU技术生成大气湍流相位屏;对相位屏的... 分析了基于非均匀采样功率谱反演大气湍流相位屏的算法,该算法可进行并行处理,并引入图形处理单元(GPU),在不影响模拟精度的前提下有效提高了相位屏的模拟速度。利用Kolmogorov功率谱,基于GPU技术生成大气湍流相位屏;对相位屏的模拟精度、模拟速度和误差进行统计分析,并与理论值进行比较。结果表明利用GPU技术模拟的大气湍流相位屏与理论值非常吻合,具有很高的模拟速度和精度,大幅提高了大气湍流相位屏的生成速度。 展开更多
关键词 大气光学 大气湍流相位屏 功率谱 非均匀采样 图形处理单元
GPU加速的近实时图像彩色化 预览 被引量:1
20
作者 赵汉理 季智坚 +1 位作者 金小刚 厉旭杰 《计算机辅助设计与图形学学报》 CSCD 北大核心 2017年第8期1425-1433,共9页
灰度图像彩色化技术需要人工交互来完成彩色化优化过程,针对现有的方法只注重彩色化的效果而忽略算法的执行效率,严重影响了用户的交互体验的问题,充分利用GPU的高性能并行优势,提出基于GPU加速的近实时图像彩色化方法.在预处理阶段,运... 灰度图像彩色化技术需要人工交互来完成彩色化优化过程,针对现有的方法只注重彩色化的效果而忽略算法的执行效率,严重影响了用户的交互体验的问题,充分利用GPU的高性能并行优势,提出基于GPU加速的近实时图像彩色化方法.在预处理阶段,运用基于图像块纹理特征的PatchMatch算法在全局图像空间高效地查找每个像素的K最近邻,并提出基于压缩表示的对称稀疏矩阵并行构造算法来保证着色线条的颜色在图像近邻像素之间的对等传播;在用户交互阶段,根据用户输入构建能量函数,并运用并行共轭梯度法计算出彩色图像的颜色.实验结果表明,该方法不但能生成高质量的图像彩色化效果,而且图像彩色化过程具有近实时性的处理性能. 展开更多
关键词 图像彩色化 K最近邻 压缩稀疏矩阵 图形处理单元
在线阅读 下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部 意见反馈