期刊文献+
共找到24篇文章
< 1 2 >
每页显示 20 50 100
一种面向OpenCL架构的矩阵-向量乘并行算法与实现
1
作者 肖汉 周清雷 姚鹏姿 《小型微型计算机系统》 CSCD 北大核心 2019年第1期26-30,共5页
矩阵-向量乘法算法的时间复杂度大,传统计算方法的实时性和跨平台性难以保证.本文提出一种基于开放式计算语言(Open Computing Language,OpenCL)的矩阵-向量乘并行算法,矩阵-向量乘法过程被分解成若干具有不同粒度的子任务.根据相应的... 矩阵-向量乘法算法的时间复杂度大,传统计算方法的实时性和跨平台性难以保证.本文提出一种基于开放式计算语言(Open Computing Language,OpenCL)的矩阵-向量乘并行算法,矩阵-向量乘法过程被分解成若干具有不同粒度的子任务.根据相应的并行度,每个工作组进行矩阵中的行块与列向量的乘积,每个工作项进行行块中行向量与列向量的乘积,并把计算任务分别分配到计算单元和处理单元进行处理.实验结果表明,与基于CPU的串行算法、基于OpenMP并行算法和基于统一计算设备架构(Compute Unified Device Architecture,CUDA)并行算法性能相比,矩阵-向量乘并行算法在OpenCL架构下NVIDIA图形处理器(Graphic Processing Unit,GPU)计算平台上分别获得了20. 86倍、6. 39倍和1. 49倍的加速比.验证了提出的并行优化方法的有效性和性能可移植性. 展开更多
关键词 矩阵-向量 图形处理器 开放式计算语言 并行算法
基于GPU的高效稀疏矩阵存储格式研究 预览
2
作者 程凯 田瑾 马瑞琳 《计算机工程》 CSCD 北大核心 2018年第8期54-60,共7页
针对基于GPU求解大规模稀疏线性方程组的问题,提出一种稀疏矩阵的存储格式HEC,并应用该格式在统一计算设备架构(CUDA)平台上实现不完全LU分解的预条件共轭梯度(ILUCG)法。该存储格式由ELL与CSR格式混合而成,将其以调用GPU kernel的... 针对基于GPU求解大规模稀疏线性方程组的问题,提出一种稀疏矩阵的存储格式HEC,并应用该格式在统一计算设备架构(CUDA)平台上实现不完全LU分解的预条件共轭梯度(ILUCG)法。该存储格式由ELL与CSR格式混合而成,将其以调用GPU kernel的方式实现ILUCG法并应用于大型稀疏线性系统的求解中,可提高稀疏矩阵的存储效率,减少稀疏矩阵与向量乘(SpMV)的运算时间。实验结果表明,与目前广泛使用的基于CSR和HYB存储格式并调用CUSPARSE库函数的实现方式相比,该实现方式最优可得10.4%的加速效果,并且具有良好的SpMV运算性能。 展开更多
关键词 图像处理单元 CUSPARSE库 HEC存储格式 稀疏矩阵向量 不完全LU分解 预条件共轭梯度法
在线阅读 下载PDF
基于贪婪分配的稀疏矩阵与向量乘的负载平衡 预览
3
作者 付朝江 《福建工程学院学报》 CAS 2010年第1期 79-82,共4页
稀疏矩阵与向量相乘的问题是大规模科学与工程计算的核心部分。考虑在工作站机群上实现大型稀疏矩阵与向量乘的负载平衡,提出了一个快速负载平衡和有效的消息传递技术相结合的方法,来缓解计算和节点间通信。并且通过I/O延迟隐藏和整... 稀疏矩阵与向量相乘的问题是大规模科学与工程计算的核心部分。考虑在工作站机群上实现大型稀疏矩阵与向量乘的负载平衡,提出了一个快速负载平衡和有效的消息传递技术相结合的方法,来缓解计算和节点间通信。并且通过I/O延迟隐藏和整体负载平衡使I/O开销能有效地分摊。数值测试表明,该方法具有良好的性能。 展开更多
关键词 贪婪分配 稀疏矩阵-向量 负载平衡 并行计算
在线阅读 下载PDF
并行稀疏矩阵与向量乘的负载平衡和通信优化 预览 被引量:1
4
作者 付朝江 张武 杨林峰 《水动力学研究与进展:A辑》 CSCD 北大核心 2004年第z1期 937-941,共5页
本文考虑了在工作站机群上实现大型稀疏矩阵和向量乘的负载平衡.提出了一个快速负载平衡和有效的消息传递技术相结合的方法,来缓解计算和节点间通信.该方法的性能在工作站机群上进行测试,可获得良好结果;并且,通过I/O延迟隐藏和整体负... 本文考虑了在工作站机群上实现大型稀疏矩阵和向量乘的负载平衡.提出了一个快速负载平衡和有效的消息传递技术相结合的方法,来缓解计算和节点间通信.该方法的性能在工作站机群上进行测试,可获得良好结果;并且,通过I/O延迟隐藏和整体负载平衡使I/O开销能有效地分摊. 展开更多
关键词 稀疏矩阵-向量 负载平衡 并行计算 消息传递
在线阅读 下载PDF
面向国产申威26010众核处理器的SpMV实现与优化 预览
5
作者 刘芳芳 杨超 +2 位作者 袁欣辉 吴长茂 敖玉龙 《软件学报》 CSCD 北大核心 2018年第12期3921-3932,共12页
世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB... 世界首台峰值性能超过100P的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产申威异构众核处理器,该处理器不同于现有的纯CPU,CPU-MIC,CPU-GPU架构,采用了主-从核架构,单处理器峰值计算能力为3TFlops/s,访存带宽为130GB/s.稀疏矩阵向量乘SpMV(sparse matrix-vector multiplication)是科学与工程计算中的一个非常重要的核心函数,众所周知,其是带宽受限型的,且存在间接访存操作.国产申威处理器给稀疏矩阵向量乘的高效实现带来了很大的挑战.针对申威处理器提出了一种CSR格式SpMV操作的通用异构众核并行算法,该算法从任务划分、LDM空间划分方面进行精细设计,提出了一套动静态buffer的缓存机制以提升向量x的访存命中率,提出了一套动静态的任务调度方法以实现负载均衡.另外还分析了该算法中影响SpMV性能的几个关键因素,并开展了自适应优化,进一步提升了性能.采用Matrix Market矩阵集中具有代表性的16个稀疏矩阵进行了测试,相比主核版最高有10倍左右的加速,平均加速比为6.51.通过采用主核版CSR格式SpMV的访存量进行分析,测试矩阵最高可达该处理器实测带宽的86%,平均可达到47%. 展开更多
关键词 稀疏矩阵向量 SpMV 申威26010处理器 异构众核并行 自适应优化
在线阅读 下载PDF
GPU稀疏矩阵向量乘的性能模型构造 预览
6
作者 尹孟嘉 许先斌 +3 位作者 何水兵 胡婧 叶从欢 张涛 《计算机科学》 CSCD 北大核心 2017年第4期182-187,206共7页
稀疏矩阵向量乘(Sparse matrix-vector multiplication,SPMV)是广泛应用于大规模线性求解系统和求解矩阵特征值等问题的基本运算,但在迭代处理过程中它也常常成为处理的瓶颈,影响算法的整体性能。对于不同形态的矩阵,选择不同的存储格... 稀疏矩阵向量乘(Sparse matrix-vector multiplication,SPMV)是广泛应用于大规模线性求解系统和求解矩阵特征值等问题的基本运算,但在迭代处理过程中它也常常成为处理的瓶颈,影响算法的整体性能。对于不同形态的矩阵,选择不同的存储格式,对应的算法往往会产生较大的性能影响。通过实验分析,找到各种矩阵形态在不同存储结构下体现的性能变化特征,构建一个有效的性能度量模型,为评估稀疏矩阵运算开销、合理选择存储格式做出有效的指导。在14组CSR,COO,HYB格式和8组ELL格式的测试用例下,性能预测模型和测量之间的差异低于9%。 展开更多
关键词 GPU 稀疏矩阵向量 性能模型
在线阅读 免费下载
基于Intel Xeon Phi的稀疏矩阵向量乘性能优化 被引量:1
7
作者 张爱民 安虹 +3 位作者 姚文军 梁伟浩 江霞 李丰 《小型微型计算机系统》 CSCD 北大核心 2016年第4期818-823,共6页
稀疏矩阵向量乘(Sp MV)是线性求解系统等科学计算中重要的计算核心.鉴于传统的稀疏矩阵向量乘算法在Intel Xeon Phi众核集成架构上存在SIM D利用率低,不规则访存开销高及负载不均衡的问题,难以发挥其运算能力.本文针对Intel Xeon Phi... 稀疏矩阵向量乘(Sp MV)是线性求解系统等科学计算中重要的计算核心.鉴于传统的稀疏矩阵向量乘算法在Intel Xeon Phi众核集成架构上存在SIM D利用率低,不规则访存开销高及负载不均衡的问题,难以发挥其运算能力.本文针对Intel Xeon Phi的体系结构特点,提出了一种通用的分块压缩存储表示的稀疏矩阵向量乘并行算法:(1)在ELLPACK存储格式基础上按列分块及压缩矩阵,增加非零元的密度,提高SIMD利用率;(2)通过精心的数据重排,保留矩阵非零元本身的局部性,从而提高数据重用率,降低访存开销;(3)将矩阵压缩后划分成近似等大的矩阵块并静态等量分配到不同核上计算,使各核负载均衡.实验结果表明,与Intel Xeon Phi上已有的MKL数学库中的CSR算法相比,本算法获得了更高的计算访存比,性能比M KL的CSR算法平均快2.05倍. 展开更多
关键词 稀疏矩阵向量 数据布局重组 INTEL XEON PHI 分块压缩存储
二元域大型稀疏矩阵向量乘的FPGA设计与实现 预览 被引量:2
8
作者 苏锦柱 邬贵明 贾迅 《计算机工程与科学》 CSCD 北大核心 2016年第8期1530-1535,共6页
作为Wiedemannn算法的核心部分,稀疏矩阵向量乘是求解二元域上大型稀疏线性方程组的主要步骤。提出了一种基于FPGA的二元域大型稀疏矩阵向量乘的环网硬件系统架构,为解决Wiede—mannn算法重复计算稀疏矩阵向量乘,提出了新的并行计算... 作为Wiedemannn算法的核心部分,稀疏矩阵向量乘是求解二元域上大型稀疏线性方程组的主要步骤。提出了一种基于FPGA的二元域大型稀疏矩阵向量乘的环网硬件系统架构,为解决Wiede—mannn算法重复计算稀疏矩阵向量乘,提出了新的并行计算结构。实验分析表明,提出的架构提高了Wiedemannn算法中稀疏矩阵向量乘的并行性,同时充分利用了FPGA的片内存储器和吉比特收发器,与目前性能最好的部分可重构计算PR模型相比,实现了2.65倍的加速性能。 展开更多
关键词 稀疏矩阵向量 二元域 FPGA 吉比特收发器
在线阅读 下载PDF
面向定制结构的稀疏矩阵分块方法 预览 被引量:1
9
作者 邬贵明 王淼 +2 位作者 谢向辉 窦勇 郭松 《计算机科学》 CSCD 北大核心 2015年第11期63-64,79共3页
稀疏矩阵向量乘是科学计算的核心问题,采用定制结构来加速稀疏矩阵向量乘的执行对提升科学计算性能具有重要意义.针对目前面向定制结构的稀疏矩阵分块方法和表示方法的缺点,提出了稀疏矩阵二维均匀分块方法和相应的表示方法嵌套分块CSR... 稀疏矩阵向量乘是科学计算的核心问题,采用定制结构来加速稀疏矩阵向量乘的执行对提升科学计算性能具有重要意义.针对目前面向定制结构的稀疏矩阵分块方法和表示方法的缺点,提出了稀疏矩阵二维均匀分块方法和相应的表示方法嵌套分块CSR.实验结果表明,提出的稀疏矩阵分块方法和表示方法能够有效减少填零个数. 展开更多
关键词 稀疏矩阵向量 定制结构 稀疏矩阵 数据分块
在线阅读 免费下载
共轭梯度法在GPU及Xeon Phi下的并行优化及比较 预览
10
作者 黄敏 丁萍 罗海飚 《华南理工大学学报:自然科学版》 EI CAS CSCD 北大核心 2015年第11期35-46,53共13页
为了充分利用多核处理器的强大计算能力并满足具有高并行度应用的需求,提出一种基于大规模稀疏矩阵特征问题求解的并行共轭梯度算法.对图形处理器(GPU)上的计算,有效利用GPU多层次的存储器体系,采用线程与矩阵映射、数据合并访问... 为了充分利用多核处理器的强大计算能力并满足具有高并行度应用的需求,提出一种基于大规模稀疏矩阵特征问题求解的并行共轭梯度算法.对图形处理器(GPU)上的计算,有效利用GPU多层次的存储器体系,采用线程与矩阵映射、数据合并访问、数据复用等优化手段,并通过高效的线程调度来隐藏全局存储器的高延迟访问;对XeonPhi处理器上的计算,有效利用XeonPhi的高并行度计算对数据通信/传递、减少数据依赖、向量化、异步计算等进行优化,并通过高效的线程调度来隐藏全局存储器的高延迟访问.文中还通过实验验证了算法的可行性和正确性,并对比了不同方式下的运行效率,发现共轭梯度法在GPU下比在XeonPhi下的加速效果更好. 展开更多
关键词 共轭梯度法 图形处理器 XEON PHI 并行优化 稀疏矩阵向量
在线阅读 免费下载
一种提高SpMV向量化性能的新型稀疏矩阵存储格式 被引量:2
11
作者 刘芳芳 杨超 《数值计算与计算机应用》 CSCD 2014年第4期269-276,共8页
稀疏矩阵向量乘(SpMV)是科学与工程计算中一个重要的核心函数,但在当前基于存储器层次结构的计算平台上,传统CSR(Compressed Sparse Row)存储的稀疏矩阵向量乘性能较低,运行效率往往远低于硬件浮点峰值的10%.目前现有的处理器... 稀疏矩阵向量乘(SpMV)是科学与工程计算中一个重要的核心函数,但在当前基于存储器层次结构的计算平台上,传统CSR(Compressed Sparse Row)存储的稀疏矩阵向量乘性能较低,运行效率往往远低于硬件浮点峰值的10%.目前现有的处理器架构一般都采用SIMD向量化技术进行加速,但是传统CSR格式的稀疏矩阵向量乘由于访存的不规则性,不能直接采用向量化技术进行加速,为了利用SIMD技术,对具有局部性特征的稀疏矩阵,提出了新的稀疏矩阵存储格式CSRL(Compressed Sparse Rowwith Local information),该格式可以减少SpMV时内存访问次数,并且能够充分利用硬件的SIMD向量化技术进行读取和计算,提高了SpMV性能.实验表明,该方法相比国际著名商业库Intel MKL 10.3版平均性能提升达到29.5%,最高可达89%的性能提升. 展开更多
关键词 稀疏矩阵 稀疏矩阵向量 向量 局部性 CSRL
基于FPGA的稀疏矩阵向量乘的设计研究 预览 被引量:6
12
作者 张禾 陈客松 《计算机应用研究》 CSCD 北大核心 2014年第6期1756-1759,共4页
作为典型的不规则算法,稀疏矩阵向量乘的计算过程具有非常低的访存局部性和计算访存比,因此在基于cache的通用处理器上计算效率很低.提出了一种面向可重构计算平台的基于IEEE-754浮点数据格式标准的稀疏矩阵向量乘算法加速器的设计.在... 作为典型的不规则算法,稀疏矩阵向量乘的计算过程具有非常低的访存局部性和计算访存比,因此在基于cache的通用处理器上计算效率很低.提出了一种面向可重构计算平台的基于IEEE-754浮点数据格式标准的稀疏矩阵向量乘算法加速器的设计.在一维划分的行压缩稀疏矩阵数据存储技术以及计算部件的流水化设计的基础上,提出了一种基于单个浮点加法器的无阻塞累加器设计.通过实验验证表明,简化了算法的设计提高了算法执行的并行度和外部存储器的带宽利用率,获得了相对于传统处理器1.37-2.60倍的性能加速比. 展开更多
关键词 稀疏矩阵向量 现场可编程逻辑门阵列 可重构计算 并行算法
在线阅读 下载PDF
基于GPU的高性能并行算法研究 预览 被引量:1
13
作者 周江 庄越 《电子技术与软件工程》 2014年第8期187-188,共2页
随着计算机技术的发展,人们发现CPU有时候难以满足处理的需要,同时,人们发现了GPU(GPU英文全称GraphicProcessingunit,中文翻译为“图形处理器”)具有强大的处理能力,可以加强对GPU的使用。因此本文的研究目标是基于GPU的高性能... 随着计算机技术的发展,人们发现CPU有时候难以满足处理的需要,同时,人们发现了GPU(GPU英文全称GraphicProcessingunit,中文翻译为“图形处理器”)具有强大的处理能力,可以加强对GPU的使用。因此本文的研究目标是基于GPU的高性能并行算法。本文首先对并行计算和GPU进行简单的介绍,然后针对稀疏矩阵向量乘算法和空间最近邻搜索算法展开研究,利用GPU对这两个算法进行研究和实现,通过加速比来反应GPU的优良性能。 展开更多
关键词 GPU 高性能 并行算法 稀疏矩阵向量 空间最近邻搜索
在线阅读 下载PDF
大规模稀疏矩阵的主特征向量计算优化方法 预览 被引量:3
14
作者 王伟 陈建平 +2 位作者 曾国荪 俞莉花 谭一鸣 《计算机科学与探索》 CSCD 2012年第2期 118-124,共7页
矩阵主特征向量(principaleig envectors computing,PEC)的求解是科学与工程计算中的一个重要问题。随着图形处理单元通用计算(general—purpose computing on graphicsprocessingunit,GPGPU)的兴起,利用GPU来优化大规模稀疏矩... 矩阵主特征向量(principaleig envectors computing,PEC)的求解是科学与工程计算中的一个重要问题。随着图形处理单元通用计算(general—purpose computing on graphicsprocessingunit,GPGPU)的兴起,利用GPU来优化大规模稀疏矩阵的图形处理单元求解得到了广泛关注。分别从应用特征和GPU体系结构特征两方面分析了PEC运算的性能瓶颈,提出了一种面向GPU的稀疏矩阵存储格式-GPu—ELL和一个针对GPU的线程优化映射策略,并设计了相应的PEC优化执行算法。在ATIHDRadeon5850上的实验结果表明,相对于传统CPU,该方案获得了最多200倍左右的加速,相对于已有GPU上的实现,也获得了2倍的加速。 展开更多
关键词 图形处理单元通用计算(GPGPU) 主特征向量计算 稀疏矩阵向量 线程优化
在线阅读 下载PDF
CSMP:基于约束等距的压缩感知匹配追踪 预览 被引量:6
15
作者 谢志鹏 陈松灿 《计算机研究与发展》 EI CSCD 北大核心 2012年第3期 579-588,共10页
压缩感知包括压缩采样与稀疏重构,是一种计算欠定线性方程组稀疏解的方法.大规模快速重构方法是压缩感知的研究热点.提出一种匹配追踪算法CSMP,采用迭代式框架和最佳s项逼近以逐步更新信号的支集与幅度.基于约束等距性质进行收敛分析,... 压缩感知包括压缩采样与稀疏重构,是一种计算欠定线性方程组稀疏解的方法.大规模快速重构方法是压缩感知的研究热点.提出一种匹配追踪算法CSMP,采用迭代式框架和最佳s项逼近以逐步更新信号的支集与幅度.基于约束等距性质进行收敛分析,算法收敛的充分条件为3s阶约束等距常数小于0.23,松弛了匹配追踪重构s稀疏信号的约束等距条件,加快了收敛速度.为适用于大规模稀疏信号重构,提供了可进行随机投影测量子集与稀疏基子集选择的矩阵向量乘算子,可利用离散余弦变换与小波变换,避免了大规模矩阵的显式存储.在220随机支集的稀疏高斯信号,512×512Lenna图像上进行压缩采样与稀疏重构实验并与其他算法进行比较,结果表明所提算法快速稳健,适用于大规模稀疏信号重构. 展开更多
关键词 欠定线性方程组 稀疏解 约束等距常数 最佳s项逼近 收敛分析 矩阵向量算子 子集选择
在线阅读 下载PDF
基于CUDA编程模型的稀疏对角矩阵向量乘优化 预览 被引量:2
16
作者 秦晋 龚春叶 +1 位作者 胡庆丰 刘杰 《计算机工程与科学》 CSCD 北大核心 2012年第7期78-83,共6页
稀疏矩阵向量乘是很多科学计算问题中的核心问题。本文针对稀疏对角矩阵,在DIA存储格式的基础上,设计了一种新型压缩存储格式CDIA,结合CUDA编程模型的特点,在计算线程上进行了细粒度的任务分配,同时为满足CUDA对存储器的合并访问要求,... 稀疏矩阵向量乘是很多科学计算问题中的核心问题。本文针对稀疏对角矩阵,在DIA存储格式的基础上,设计了一种新型压缩存储格式CDIA,结合CUDA编程模型的特点,在计算线程上进行了细粒度的任务分配,同时为满足CUDA对存储器的合并访问要求,将压缩矩阵做了相应的转置处理,设计了细粒度算法与程序,并根据稀疏矩阵向量乘特点,做了相应的程序优化。实验数据显示,这种存储格式能够很好地发挥CUDA在数据处理方面的优势,在测试数据中,最高获得了单精度39.6Gflop/s和双精度19.6Gflop/s的浮点计算性能,性能在Nathan Bell和Michael Garland的基础上分别提高了7.6%和17.4%。 展开更多
关键词 GPU CDIA CUDA 稀疏矩阵向量
在线阅读 下载PDF
稀疏矩阵向量乘的FPGA设计与实现 预览 被引量:2
17
作者 宋庆增 顾军华 《计算机工程》 CAS CSCD 北大核心 2011年第23期 214-216,共3页
针对传统的通用处理器(GPP)平台上执行稀疏矩阵向量乘计算效率低的问题,提出一种基于可重构计算平台的SpMXV协处理器设计。方案采用二叉树结构高度流水的数据流、IEEE-754的32 bit浮点数数据格式和对角存储格式。数据通路以流水线方... 针对传统的通用处理器(GPP)平台上执行稀疏矩阵向量乘计算效率低的问题,提出一种基于可重构计算平台的SpMXV协处理器设计。方案采用二叉树结构高度流水的数据流、IEEE-754的32 bit浮点数数据格式和对角存储格式。数据通路以流水线方式进行组织,能够优化计算性能。仿真结果表明,与GPP平台上的软件实现相比,通过硬件实现的设计能达到最高2.69倍的性能加速。 展开更多
关键词 可重构计算 协处理器 稀疏线性方程组 稀疏矩阵向量 归约阵列
在线阅读 下载PDF
RAM(h)模型下SpMV存储访问复杂度的分析 预览
18
作者 袁娥 张云泉 孙相征 《计算机工程与设计》 CSCD 北大核心 2009年第3期 613-618,共6页
稀疏矩阵向量乘(SpMV)采取压缩行存储格式的算法性能非常差,而寄存器分块算法可以使得数据尽量在靠近处理器的存储层次中访问而提高性能。利用RAM(h)模型进行分析和比较不同算法形式的存储访问复杂度,可以比较两种算法的优劣。通... 稀疏矩阵向量乘(SpMV)采取压缩行存储格式的算法性能非常差,而寄存器分块算法可以使得数据尽量在靠近处理器的存储层次中访问而提高性能。利用RAM(h)模型进行分析和比较不同算法形式的存储访问复杂度,可以比较两种算法的优劣。通过RAM(h)分析SpMV两种实现形式的存储访问复杂度,同时在奔腾四平台上,测试了7个稀疏矩阵的SpMV性能,并统计了这两种算法中L1,L2,和TLB的缺失率,实验结果与模型分析的数据一致。 展开更多
关键词 SpMV 稀疏矩阵向量 RAM(h)模型 存储访问复杂度
在线阅读 下载PDF
SpMV的自动性能优化实现技术及其应用研究 预览 被引量:11
19
作者 袁娥 张云泉 +1 位作者 刘芳芳 孙相征 《计算机研究与发展》 EI CSCD 北大核心 2009年第7期 1117-1126,共10页
在科学计算中,稀疏矩阵向量乘(SpMV)是一个十分重要且经常被大量调用的计算内核.由于SpMV一般实现算法的浮点计算和存储访问次数比率非常低,且其存储访问模式极为不规则,其实际运行性能往往很低.通过采用寄存器分块算法和启发式... 在科学计算中,稀疏矩阵向量乘(SpMV)是一个十分重要且经常被大量调用的计算内核.由于SpMV一般实现算法的浮点计算和存储访问次数比率非常低,且其存储访问模式极为不规则,其实际运行性能往往很低.通过采用寄存器分块算法和启发式分块大小选择算法,将稀疏矩阵分成小的稠密分块,重用保存在寄存器中向量x元素,可以提高该计算内核的性能.剖析和总结了OSKI软件包所采用的若干关键优化技术,并进行了实际应用性能测试.测试表明,在实际应用这些优化技术的过程中,应用程序对SpMV的调用次数要达到上百次的量级,才能抵消由于应用这些性能优化技术所带来的额外时间开销,取得性能加速效果.在Pentium4和AMDAthlon平台上,测试了10个矩阵,其平均加速比分别达到了1.69和1.48. 展开更多
关键词 稀疏矩阵向量 启发式算法 自适应性能优化 存储访问模式 寄存器分块
在线阅读 下载PDF
浮点乘累加处理单元的FPGA实现 预览 被引量:4
20
作者 金席 高小鹏 龙翔 《计算机与数字工程》 2006年第10期 165-168,179,共5页
稀疏矩阵向量乘(Sparse Matrix—Vector Multiply,SMVM),形如Ab=x,在科学计算、信息检索、数据挖掘等领域中都是重要的计算核心之一。在基于FPGA实现的SMVM系统中,其底层基本处理单元(Processing Element,PE)的主要功能,是对... 稀疏矩阵向量乘(Sparse Matrix—Vector Multiply,SMVM),形如Ab=x,在科学计算、信息检索、数据挖掘等领域中都是重要的计算核心之一。在基于FPGA实现的SMVM系统中,其底层基本处理单元(Processing Element,PE)的主要功能,是对单精度浮点输入进行乘累加运算。本文针对SMVM算法的特点,提出浮点乘累加PE的设计方案,并在Vimex4 LX60上加以实现,工作频率达到123.6MHz。 展开更多
关键词 累加 浮点 稀疏矩阵向量 FPGA
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部 意见反馈