期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于ARM V8平台的向量算法库实现与优化 预览
1
作者 王晶 张云泉 梁军 《计算机工程》 CAS CSCD 北大核心 2019年第6期82-88,共7页
基于ARMV8架构的VecOp向量算法库,提出一种基础向量算法在ARMV8平台上实现和优化的方案。从访存对界优化、指令集优化、基本块优化以及向量分支优化4个方面进行精细调优,提升向量算法函数在ARMV8平台上的性能,以实现VecOp算法库在ARMV8... 基于ARMV8架构的VecOp向量算法库,提出一种基础向量算法在ARMV8平台上实现和优化的方案。从访存对界优化、指令集优化、基本块优化以及向量分支优化4个方面进行精细调优,提升向量算法函数在ARMV8平台上的性能,以实现VecOp算法库在ARMV8平台上的优化。实验结果表明,该方案在ARMV8计算平台上实现的向量算法库性能提升可达到10%~300%。 展开更多
关键词 数学函数库 ARMV8架构 向量算法库 单指令流多数据 访优化
在线阅读 下载PDF
面向图计算的内存系统优化技术综述
2
作者 王靖 张路 +5 位作者 王鹏宇 徐嘉鸿 李超 朱浩瑾 钱学海 过敏意 《中国科学:信息科学》 CSCD 北大核心 2019年第3期295-313,共19页
图(graph)是一种以顶点和边构成的包含多种信息的复杂数据结构.图计算(graph processing)要求我们将现实条件中的关系属性抽象为图数据结构并进行复杂计算.由于CPU性能提升遇到瓶颈,人们尝试了多种协处理器或专用加速器,致力于提高运行... 图(graph)是一种以顶点和边构成的包含多种信息的复杂数据结构.图计算(graph processing)要求我们将现实条件中的关系属性抽象为图数据结构并进行复杂计算.由于CPU性能提升遇到瓶颈,人们尝试了多种协处理器或专用加速器,致力于提高运行速度并节省能耗.由于图计算具有数据依赖性强、访存–计算比高的特点,提高图计算访存效率是改善系统性能的关键.尤其是随着图数据规模的扩大,高效的内存管理优化对异构图计算性能的提高显得尤为重要.本文将介绍异构架构图计算中内存系统的管理及优化方法,归纳目前能够提高访存效率的图数据格式;分析图计算专用加速器GPU,FPGA,ASIC,PIM等的架构特点与内存方面的优化工作;概括国内相关研究进展;同时总结图计算在内存方面的机遇与挑战. 展开更多
关键词 图计算 专用加速器.内管理 系统架构 访优化
计算流体力学程序单核指令级优化方法 预览
3
作者 刘闯 何峰 +2 位作者 肖兮 董小社 张兴军 《西安交通大学学报》 CSCD 北大核心 2018年第12期77-83,共7页
针对目前大多数计算流体力学程序对系统的单核计算能力利用不足,提出一种针对计算流体力学程序的单核指令级优化方法。该方法首先分析程序的性能指标存在潜在的性能不足,根据分析结果进行优化;依据容器的存储特性和系统的访存特性,对程... 针对目前大多数计算流体力学程序对系统的单核计算能力利用不足,提出一种针对计算流体力学程序的单核指令级优化方法。该方法首先分析程序的性能指标存在潜在的性能不足,根据分析结果进行优化;依据容器的存储特性和系统的访存特性,对程序的存储结构和访存顺序进行调整,以优化空间开销和访存性能;对CPU的流水机制进行分析,在循环和分支中消除指令的控制相关和数据相关从而达到减少流水中断率的目的;分析编译器对高级语言的处理特点并结合系统中的运行时栈在指令级作出分析,优化指令结构从而减少指令冗余和降低指令复杂度。实验结果表明,在TIANHE-1A超级计算机系统上进行测试,与优化前程序相比,优化后的程序执行时间约减少68.34%,空间消耗约减少55.43%。通过对程序性能各项指标进行分析的结果表明,程序在流水中断率、缓存命中率及机器指令数等性能指标上均有大幅地提升,该方法优化覆盖范围多于目前其他优化方法,有较好的优化效果,在计算流体力学程序优化研究中具有一定的借鉴价值。 展开更多
关键词 流体力学程序 指令级优化 访优化 流水优化
在线阅读 下载PDF
GeoEast处理模块面向海量数据生产的访存优化 预览
4
作者 杨志昱 薛贵仁 +1 位作者 张旭东 王嘉琪 《石油工业计算机应用》 2018年第2期23-26,共4页
近年来地震勘探技术在两宽一高、多波多分量、海洋勘探等方面取得了长足的发展,同时也导致了地震数据量的爆炸式增长。据统计,在过去12年里,单位勘探面积的地震数据量增长超过了35倍。面对海量数据的生产,GeoEast处理软件的计算效率面... 近年来地震勘探技术在两宽一高、多波多分量、海洋勘探等方面取得了长足的发展,同时也导致了地震数据量的爆炸式增长。据统计,在过去12年里,单位勘探面积的地震数据量增长超过了35倍。面对海量数据的生产,GeoEast处理软件的计算效率面临前所未有的压力,虽然借助于大规模集成电路的发展,处理器的计算能力有了飞速的提高,但存储性能却逐步成为计算机性能提高的瓶颈,在计算机系统中,存储性能是程序访存特征和特定的存储结构共同作用的结果,借助于对计算机存储体系结构的充分理解和挖掘,通过对现有软件的访存优化是提高处理软件计算性能的重要途径之一。 展开更多
关键词 海量数据 地震勘探 访优化
在线阅读 下载PDF
以访存为中心的阵列众核处理器核心流水线设计 预览
5
作者 张昆 郑方 谢向辉 《计算机工程与科学》 CSCD 北大核心 2017年第12期2167-2175,共9页
传统的流水线设计是以转移指令为中心的,大量逻辑资源被用于提高处理器转移预测的能力,以保证向流水线发射和执行部件提供充足的指令流。在阵列众核处理器中提出了一种以访存为中心的核心流水线设计。通过提高访存装载指令在流水线中... 传统的流水线设计是以转移指令为中心的,大量逻辑资源被用于提高处理器转移预测的能力,以保证向流水线发射和执行部件提供充足的指令流。在阵列众核处理器中提出了一种以访存为中心的核心流水线设计。通过提高访存装载指令在流水线中的执行优先级,以及访存装载指令的预测执行机制,可以有效减.少顺序流水线因访存延迟所带来的停顿,提高流水线性能和能效比。测试结果表明,以4KB容量的装载指令访存地址表为例,访存为中心的流水线设计可以带来8.6%的流水线性能提升和7%的流水线能效比提高。 展开更多
关键词 众核处理器 核心流水线 访优化 阵列众核
在线阅读 下载PDF
用于DDR3访存优化的数据缓冲机制 预览
6
作者 陈胜刚 付兴飞 +1 位作者 曾思 刘胜 《国防科技大学学报》 CSCD 北大核心 2017年第6期39-44,共6页
为提高DDR3控制器访存效率,设计了基于DDR3存储器预取访问数据长度的数据缓冲机制,将访存请求分为三种基本类型并分别排队处理,降低数据丢弃和实际动态随机访问存储器访问发生次数。针对图像和视频类应用程序的实验结果表明,相对于传统... 为提高DDR3控制器访存效率,设计了基于DDR3存储器预取访问数据长度的数据缓冲机制,将访存请求分为三种基本类型并分别排队处理,降低数据丢弃和实际动态随机访问存储器访问发生次数。针对图像和视频类应用程序的实验结果表明,相对于传统先到先服务的DDR3访存控制器,该机制取得了平均21.3%、最好51.3%的性能提升,硬件开销在可接受范围内。 展开更多
关键词 DDR3控制器 访优化 数据缓冲
在线阅读 下载PDF
面向Android系统库文件访存的汇编优化策略 预览 被引量:1
7
作者 曹越 《测控技术》 CSCD 2016年第1期113-117,126共6页
以自主嵌入式处理器为平台,对Android系统性能进行分析。通过Oprofile工具采集Android系统下的访存热点函数,结合处理器架构特点,并充分考虑传统Cache特性,重点针对Android系统的Bionic C库及Libcutils库中的热点访存函数提出优化算法... 以自主嵌入式处理器为平台,对Android系统性能进行分析。通过Oprofile工具采集Android系统下的访存热点函数,结合处理器架构特点,并充分考虑传统Cache特性,重点针对Android系统的Bionic C库及Libcutils库中的热点访存函数提出优化算法进行汇编优化。实验表明:优化后的Bionic C库和Libcutils库与优化前相比,访存带宽分别提升8.91%和12.3%,系统性能分别提升1.54%和3.81%;Android系统整体性能提升5.35%。 展开更多
关键词 安卓 访优化 BIONIC C库 Libcutils库
在线阅读 免费下载
基于区域协作的Cache压缩 预览
8
作者 曾露 李鹏 王焕东 《高技术通讯》 CAS CSCD 北大核心 2016年第5期440-449,共10页
为提高Cache的有效容量,进行了Cache压缩研究,并提出了一种区域协作压缩(RCC)方法,以提升最后一级缓存的压缩率。与传统的Cache压缩算法不同,RCC方法利用了缓存区域的压缩局部性,使用缓存区域中第一个缓存块的字典信息来协作压缩缓存... 为提高Cache的有效容量,进行了Cache压缩研究,并提出了一种区域协作压缩(RCC)方法,以提升最后一级缓存的压缩率。与传统的Cache压缩算法不同,RCC方法利用了缓存区域的压缩局部性,使用缓存区域中第一个缓存块的字典信息来协作压缩缓存区域中的其他各个缓存块,而不需要对缓存区域进行整体压缩。RCC有效发掘了缓存区域内缓存块之间的数据冗余,实现了接近以缓存区域为压缩粒度的字典压缩的压缩率,然而压缩、解压缩延时却仍然和压缩单个缓存块时相当。实验结果表明,与单缓存块压缩算法C-PACK相比,RCC方法的压缩率平均提升了12.34%,系统的性能提升了5%。与2倍容量的非压缩Cache相比,有效容量提升了27%,系统性能提升了8.6%,而面积却减少了63.1%。 展开更多
关键词 数据压缩 字典压缩 区域协作压缩(RCC) 高速缓压缩 访优化
在线阅读 下载PDF
SPM结构上冗余读延迟写优化的设计与实现 预览
9
作者 文延华 冯冬明 尉红梅 《计算机应用与软件》 CSCD 2015年第2期10-13,共4页
随着微处理器架构的发展,将片上SRAM组织成SPM这种软件管理的非cache结构成为众多处理器的选择。SPM结构的特点是实现简单,访问延迟低、带宽高。要有效利用有限的片上SPM空间提升程序性能,必须由用户显式进行数据的布局和传送,或者... 随着微处理器架构的发展,将片上SRAM组织成SPM这种软件管理的非cache结构成为众多处理器的选择。SPM结构的特点是实现简单,访问延迟低、带宽高。要有效利用有限的片上SPM空间提升程序性能,必须由用户显式进行数据的布局和传送,或者由编译器进行高效的自动访存优化。冗余读延迟写优化从循环中多个主存访问之间的关联性出发,自动进行了数据传送和缓存优化,提高了SPM上的数据重用率。经过测试,可以有效提升程序性能。 展开更多
关键词 SPM 访优化 关联性 冗余读延迟写 数据重用
在线阅读 下载PDF
基于NUMA架构的解释器访存优化设计与实现 预览
10
作者 任彤 傅杰 靳国杰 《高技术通讯》 CAS CSCD 北大核心 2015年第7期661-668,共8页
为了提高非一致内存访问(NUMA)架构虚拟机解释器的访存性能,研究了解释器在NUMA架构下的访存优化技术,提出了一种NUMA架构下的解释器访存优化方案,而且设计并实现了解释器的静态指令分派优化方法和动态指令分派优化方法。根据这一... 为了提高非一致内存访问(NUMA)架构虚拟机解释器的访存性能,研究了解释器在NUMA架构下的访存优化技术,提出了一种NUMA架构下的解释器访存优化方案,而且设计并实现了解释器的静态指令分派优化方法和动态指令分派优化方法。根据这一方案虚拟机启动时首先获取NUMA节点信息,并在每个NUMA节点中自动生成解释器所需的全部数据结构;解释器在运行时,通过静态或动态的指令分派技术来实现其执行线程在NUMA节点上访存的局部化。试验结果表明,上述方法能够显著提升解释器在NUMA系统中的性能。在DaCapo测试集上的总体性能提升了8%,最高性能提升幅度高达23%,而且算法实现代价低,适用于绝大多数的NUMA服务器系统。 展开更多
关键词 非一致内访问(NUMA) 虚拟机 解释器 响应速度 启动性能 访优化
在线阅读 下载PDF
片上多核处理器的区域共享的双粒度目录 预览
11
作者 曾露 陈新科 王焕东 《高技术通讯》 CAS CSCD 北大核心 2015年第7期669-676,共8页
研究了双粒度目录(DGD)下片上多核处理器的访存行为以及DGD对不同共享行为的目录开销,以进一步降低DGD结构的面积开销。针对DGD需要为共享缓存区域创建额外的块目录项的问题,提出了创新的区域共享的双粒度目录(RSDGD)结构。该结... 研究了双粒度目录(DGD)下片上多核处理器的访存行为以及DGD对不同共享行为的目录开销,以进一步降低DGD结构的面积开销。针对DGD需要为共享缓存区域创建额外的块目录项的问题,提出了创新的区域共享的双粒度目录(RSDGD)结构。该结构可用一个区域共享目录项同时维护最多3个共享者共享同一个缓存区域的一致性,从而能有效减少所需的块目录项数量,降低总的目录开销。实验结果表明,和原有的DGD相比,该结构平均减少了25%的目录空间需求,而仅产生了不到0.6%的性能损失。该结构有效地降低了芯片的面积开销,提高了目录结构的可伸缩性。 展开更多
关键词 双粒度目录(DGD) 片上多核处理器 一致性 区域共享 目录一致性协议 访优化
在线阅读 下载PDF
面向异构众核从核的数学函数库访存优化方法 预览 被引量:4
12
作者 许瑾晨 郭绍忠 +1 位作者 黄永忠 王磊 《计算机科学》 CSCD 北大核心 2014年第6期12-17,共6页
数学库函数算法的特性致使函数存在大量的访存,而当前异构众核的从核结构采用共享主存的方式实现数据访问,从而严重影响了从核的访存速度,因此异构众核结构中数学库函数的性能无法满足高性能计算的要求.为了有效解决此问题,提出了一种... 数学库函数算法的特性致使函数存在大量的访存,而当前异构众核的从核结构采用共享主存的方式实现数据访问,从而严重影响了从核的访存速度,因此异构众核结构中数学库函数的性能无法满足高性能计算的要求.为了有效解决此问题,提出了一种基于访存指令的调度策略,亦即将访存延迟有效地隐藏于计算延迟中,以提高基于汇编实现的数学函数库的函数性能;结合动态调用方式,利用从核本地局部数据存储空间LDM(local data memory),提出了一种提高访存速度的ldm_call算法.两种优化技术在共享存储结构下具有普遍适用性,并能够有效减少函数访存开销,提高访存速度.实验表明,两种技术分别能够平均提高函数性能16.08%和37.32%. 展开更多
关键词 异构众核 数学函数库 访优化 指令调度 局部数据储空间
在线阅读 免费下载
基于GPU实现允许k-差别近似串匹配并行算法 预览 被引量:3
13
作者 张锦雄 梁正友 +1 位作者 蔡德霞 韦兴柳 《广西大学学报:自然科学版》 CAS CSCD 北大核心 2011年第2期 285-291,共7页
为了在GPU上实现允许k-差别近似串匹配并行算法,并进一步提高在GPU上的算法性能,在综合考虑GPU的存储层次前提下,采取了多种访存优化措施,并提出了避免bank冲突的解决方案。测试结果表明,所用优化措施及方案使算法性能明显提高。
关键词 k-差别近似串匹配 GPU CUDA 访优化 bank冲突
在线阅读 下载PDF
一种简便的栈式片上内存动态管理方法 预览
14
作者 刘勇 陆林生 何王全 《计算机工程与科学》 CSCD 北大核心 2010年第9期 111-114,共4页
受功耗、面积的限制,高性能众核处理器倾向于将片上SRAM组织成SPM这种非Cache形式,与片外主存构成多级存储架构。这种存储架构需要软件显式管理应用程序中的数据存储和传输。为此,本文提出了一种简便的栈式片上内存动态管理方法。该方... 受功耗、面积的限制,高性能众核处理器倾向于将片上SRAM组织成SPM这种非Cache形式,与片外主存构成多级存储架构。这种存储架构需要软件显式管理应用程序中的数据存储和传输。为此,本文提出了一种简便的栈式片上内存动态管理方法。该方法首先选择应用程序中可进行访存优化的数组变量,分析这些数组变量的生存周期,根据生存周期相干情况提出一种栈式的动态片上内存管理方法,将更多的数组变量动态存储在片上内存中,同时结合数组变量的优化收益评估将那些访存密度高的变量有限布局在片上内存中。实验结果验证了该方法的有效性。 展开更多
关键词 SPM 栈式内动态分配 访优化
在线阅读 下载PDF
天体物理成团研究中的非规则访存优化 预览 被引量:1
15
作者 郝赫 司雨蒙 +2 位作者 韦建文 文敏华 林新华 《计算机科学与探索》 CSCD 北大核心 2017年第1期80-90,共11页
HGGF(halo-basedgalaxygroupfinder)算法实现了基于暗物质晕的星系找群,在研究宇宙大尺度结构及宇宙的演化等领域中占有至关重要的地位。但由于数据规模的增长,急需对HGGF算法进行优化,以缩短运行时间。经分析,算法的热点部分耗... HGGF(halo-basedgalaxygroupfinder)算法实现了基于暗物质晕的星系找群,在研究宇宙大尺度结构及宇宙的演化等领域中占有至关重要的地位。但由于数据规模的增长,急需对HGGF算法进行优化,以缩短运行时间。经分析,算法的热点部分耗时受到非规则访存的严重影响,因此针对算法的结构和非规则访存模型,提出了数据预排序方法,并分析了该方法如何影响访存过程。在此基础上,利用数据对齐、循环分解进一步优化访存效率,利用负载均衡和互斥变量私有化的方法提高了OpenMP的并行效率,最终将HGGF应用使用12线程加速11.6倍,同时取得了更好的可扩展性。主要有三点贡献:(1)分析了HGGF算法的非规则访存问题;(2)提出并分析了数据预排序方法;(3)使用数据对齐、循环分解、负载均衡、互斥变量私有化方法提高了HGGF应用的并行性能。 展开更多
关键词 天体物理成团 非规则访优化 数据预排序 并行计算
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部 意见反馈