期刊文献+
共找到61篇文章
< 1 2 4 >
每页显示 20 50 100
基于虚拟化的水务分布式大数据存储平台设计 预览
1
作者 闫健卓 高凯丽 +1 位作者 许红霞 于涌川 《水利信息化》 2019年第3期17-24,共8页
针对自然界与人类社会二元水循环产生的海量水务观测数据,现有水务数据管理系统存在存储负荷大,数据库扩展困难,查询速度慢的问题,无法满足存储与分析的需要。针对问题,首先,结合虚拟化技术、Hadoop基础架构,设计分布式大数据存储平台... 针对自然界与人类社会二元水循环产生的海量水务观测数据,现有水务数据管理系统存在存储负荷大,数据库扩展困难,查询速度慢的问题,无法满足存储与分析的需要。针对问题,首先,结合虚拟化技术、Hadoop基础架构,设计分布式大数据存储平台的基本架构;其次,依据现有水务大数据情况及实际业务数据库表,实现分布式大数据存储平台的设计;最后,完成从集中式平台到分布式平台的数据迁移代码实现,并进行数据迁移实验测试。实验结果验证了分布式大数据存储平台设计方案的可行性与有效性,可为大规模行业数据的存储与处理提供一种理想的分布式解决方案。 展开更多
关键词 水务数据 大数据 分布式存储 存储平台 虚拟化 HADOOP集群 数据迁移
在线阅读 下载PDF
基于Hadoop的分布式集群大数据动态存储系统设计 预览
2
作者 陈磊 吴晓晖 《中国电子科学研究院学报》 北大核心 2019年第6期593-598,共6页
由于大数据计算需求逐渐增大,数据存储需求也逐渐增长,传统集成式大数据存储系统未能合理均衡存储服务器负载情况,导致系统存储效率低,易出现系统崩溃状况。针对该问题,设计基于Hadoop的分布式集群大数据动态存储系统。首先,通过中央控... 由于大数据计算需求逐渐增大,数据存储需求也逐渐增长,传统集成式大数据存储系统未能合理均衡存储服务器负载情况,导致系统存储效率低,易出现系统崩溃状况。针对该问题,设计基于Hadoop的分布式集群大数据动态存储系统。首先,通过中央控制集群获取用户需求;然后,通过高速以太网连接模块下达采集指令至大数据采集集群,大数据采集集群受中央控制集群的调度,快速采集动态数据并定期把缓存数据导入大数据永久存储集群中,实现数据定期存储更新;最后,采用改进动态负载均衡算法均衡系统存储服务器的负载情况,获取综合指标参数值,将最大参数值的服务器存储动态数据。经验证,所提设计系统的存储响应速度快、存储耗时短,负载均衡性能优。 展开更多
关键词 HADOOP 分布式 集群 大数据 动态存储 负载均衡
在线阅读 下载PDF
Hadoop中改进的共享式存储设备设计 预览
3
作者 覃伟荣 《计算机工程与设计》 北大核心 2018年第5期1319-1325,共7页
针对将Hadoop迁移到虚拟化环境中不能充分发挥其性能优势这一问题,设计一种共享式存储设备StoreApp。StoreApp主机将映射任务生成的中间数据放到存储节点中,实现存储与计算相分离;设计HDFS预取算法来处理数据读取失准现象;StoreApp采用... 针对将Hadoop迁移到虚拟化环境中不能充分发挥其性能优势这一问题,设计一种共享式存储设备StoreApp。StoreApp主机将映射任务生成的中间数据放到存储节点中,实现存储与计算相分离;设计HDFS预取算法来处理数据读取失准现象;StoreApp采用一种集群规模自动调整技术确定不同作业的最优集群规模,通过动态改变每个主机上计算节点的数量实现作业完成时间的最小化。仿真结果表明,与传统的未将计算和存储相分离的Hadoop方案和典型的Themis方案相比,StoreApp可显著提升HDFS吞吐量并降低作业完成时间。 展开更多
关键词 HADOOP集群 共享式存储设备 最优集群规模 吞吐量 作业完成时间
在线阅读 下载PDF
Hadoop集群中影响应用性能的因素分析 被引量:1
4
作者 马生俊 陈旺虎 +2 位作者 郭宏乐 乔保民 李新田 《小型微型计算机系统》 CSCD 北大核心 2018年第4期719-724,共6页
针对Hadoop集群中应用执行的低效率、高成本问题,首先,通过对Hadoop分布式存储技术和并行编程模型的分析,发现数据集采用单文件还是多文件方式,以及数据块划分的大小是影响其性能的主要因素.其次,设计实验探讨了不同规模集群环境下,两... 针对Hadoop集群中应用执行的低效率、高成本问题,首先,通过对Hadoop分布式存储技术和并行编程模型的分析,发现数据集采用单文件还是多文件方式,以及数据块划分的大小是影响其性能的主要因素.其次,设计实验探讨了不同规模集群环境下,两类数据集以及不同大小的数据块对应用性能的影响程度.最后,综合实验结果发现,在数据量一定的情况下,随着数据块的增大,map任务数的变化导致大文件数据集的执行效率越来越高于小文件数据集的执行效率;另外,两类数据集在小规模集群(1个Slave)上的执行效率大约均是大规模集群(10个Slave)下的2倍.故此,在Hadoop集群环境中为了提高应用性能,应通过增大数据块等方法来减少map任务数,而不应盲目增大集群规模.该结论可对Hadoop集群环境下应用效率的优化提供参考. 展开更多
关键词 HADOOP集群 性能 集群规模 数据块 数据集类型 因素分析
基于Hadoop平台Canopy-Kmeans聚类算法优化改进研究 预览
5
作者 周功建 《安徽广播电视大学学报》 2018年第4期117-122,128共7页
在分析Hadoop平台架构和Canopy-Kmeans聚类算法的基础上,对Canopy-Kmeans算法进行了并行化优化改进,通过统计学思维对数据分组抽样后聚类以方便并行化和降低时间复杂度,利用最小最大原则优化Canopy初始中心点选取,用数据异度均值抽样法... 在分析Hadoop平台架构和Canopy-Kmeans聚类算法的基础上,对Canopy-Kmeans算法进行了并行化优化改进,通过统计学思维对数据分组抽样后聚类以方便并行化和降低时间复杂度,利用最小最大原则优化Canopy初始中心点选取,用数据异度均值抽样法保证从原数据中均匀提取数据样本,并对Kmeans迭代计算过程进行优化.结合Hadoop平台下MapReduce框架将改进算法进行并行化设计实现.实验表明,对海量数值数据进行聚类时,改进的Canopy-Kmeans并行算法是有效的、收敛的,在聚类准确率和时效性上都有一定程度的提升. 展开更多
关键词 HADOOP MAPREDUCE 聚类分析 Kmeans算法 Canopy-Kmeans算法 加速比
在线阅读 下载PDF
基于Hadoop个性化推荐算法设计与实现 预览
6
作者 刘斌 李帆 姚斌 《陕西科技大学学报》 2018年第2期154-159,共6页
为了提升个性化推荐系统的大数据处理能力,选择基于用户聚类协同过滤的个性化推荐算法,并在Hadoop平台下实现算法的分布式并行化.离线状态下对用户物品矩阵降维,对用户进行聚类得到类别信息列表,对用户在类簇内进行推荐,并在相似... 为了提升个性化推荐系统的大数据处理能力,选择基于用户聚类协同过滤的个性化推荐算法,并在Hadoop平台下实现算法的分布式并行化.离线状态下对用户物品矩阵降维,对用户进行聚类得到类别信息列表,对用户在类簇内进行推荐,并在相似度计算内引入物品贡献权重,最后对算法实现并行化得到推荐结果,实现基于用户聚类的分布式协同过滤推荐算法.最后对推荐结果进行测试分析,证明分布式个性化推荐有更好的推荐准确性和实时性. 展开更多
关键词 HADOOP 协同过滤 聚类 相似度 并行化
在线阅读 下载PDF
基于Hadoop的分布式并行增量爬虫技术研究 预览 被引量:1
7
作者 刘芳云 张志勇 李玉祥 《计算机测量与控制》 2018年第10期269-275,308共8页
面对多媒体社交网络中在线视频的爆炸式增长,使用单机模式下爬虫提取新视频页面的效率低下,为此,提出一种基于Map/Reduce的并行算法,大大提高了爬虫的效率;但是为了进一步改善数据冗余问题,减少过时页面的更新,改进了一种精度感... 面对多媒体社交网络中在线视频的爆炸式增长,使用单机模式下爬虫提取新视频页面的效率低下,为此,提出一种基于Map/Reduce的并行算法,大大提高了爬虫的效率;但是为了进一步改善数据冗余问题,减少过时页面的更新,改进了一种精度感知增量更新算法,利用监控技术监控网页变化情况,分析网页更新模式,增加新鲜度评估和降维处理,使用混合整数二次规划方法为发生更改的网页制定最优的刷新策略;实验证明,相比单机模式下定期频繁的刷新策略,该并行增量方法以原刷新代价的36.7%获得了79%的信息精确度,爬虫效率提高了167倍。 展开更多
关键词 HADOOP集群 分布式爬虫 并行爬虫 增量爬虫 刷新策略
在线阅读 下载PDF
利用Docker容器技术构建大数据实验室 预览 被引量:3
8
作者 应毅 刘亚军 俞琰 《实验室研究与探索》 北大核心 2018年第2期264-268,共5页
目前大数据人才培养在国内外高校开始普及,但大数据实验室的几种常用建设方法都存在着诸多问题。针对大数据实验环境的特点,提出一种利用Docker容器技术在单台普通计算机上构建Hadoop集群的方法,并详述了Hadoop镜像制作、Docker环境部... 目前大数据人才培养在国内外高校开始普及,但大数据实验室的几种常用建设方法都存在着诸多问题。针对大数据实验环境的特点,提出一种利用Docker容器技术在单台普通计算机上构建Hadoop集群的方法,并详述了Hadoop镜像制作、Docker环境部署、容器运行、Hadoop集群测试、Eclipse开发环境配置、镜像迁移等实验室建设细节。实践表明,新方法无需额外购置设备,节省实验室资金,同时未增加机房维护工作量,提高机房可复用性,新方法实验教学效果良好,为高校的大数据实验室建设提供参考。 展开更多
关键词 大数据实验室 Docker容器技术 HADOOP集群 镜像
在线阅读 下载PDF
基于Hadoop平台的GPU集群加速Apriori算法 预览
9
作者 瞿诗齐 刘少江 +1 位作者 倪伟传 余庆茂 《计算机工程》 CSCD 北大核心 2018年第11期14-18,26共6页
针对Apriori算法在Hadoop平台下集群节点计算能力有限的问题,将并行能力较大的GPU与Hadoop相结合,提出一种GPU-Hadoop的计算结构算法。通过Hadoop平台的MapReduce框架,节点将Apriori算法的计算密集型任务交由GPU进行处理,以缩减运算时... 针对Apriori算法在Hadoop平台下集群节点计算能力有限的问题,将并行能力较大的GPU与Hadoop相结合,提出一种GPU-Hadoop的计算结构算法。通过Hadoop平台的MapReduce框架,节点将Apriori算法的计算密集型任务交由GPU进行处理,以缩减运算时间。实验结果表明,改进Apriori算法在面对大规模数据集时具有较高的执行速度与计算效率。 展开更多
关键词 APRIORI算法 HADOOP平台 集群节点 密集型任务 大规模数据集
在线阅读 下载PDF
基于hadoop的雨情大数据集群部署 预览
10
作者 甄海涛 田晓英 杜寅甫 《自动化技术与应用》 2018年第2期136-138,142共4页
针对黑龙江省七台河市雨情数据采集信息,提出了一种基于hadoop的大数据可视化管理平台,主要应用于数字化农业生产中的雨量分析及监测。本文主要介绍了基于hadoop的大数据平台的集群部署,对集群部署过程中出现的问题和解决的具体办法... 针对黑龙江省七台河市雨情数据采集信息,提出了一种基于hadoop的大数据可视化管理平台,主要应用于数字化农业生产中的雨量分析及监测。本文主要介绍了基于hadoop的大数据平台的集群部署,对集群部署过程中出现的问题和解决的具体办法进行了描述,实现了平台搭建的可靠性及稳定性。 展开更多
关键词 HADOOP 大数据 集群部署
在线阅读 下载PDF
一种基于MapReduce的频繁模式挖掘算法 预览
11
作者 叶海琴 孟彩霞 +1 位作者 王意锋 张爱玲 《南京理工大学学报:自然科学版》 CSCD 北大核心 2018年第1期62-67,共6页
为了解决Algorithm_Add算法在挖掘大数据中的频繁模式时存在的内存占有量大和运行速度慢等问题,该文在深入研究Algorithm_Add算法的基础上,提出了基于MapReduce计算模型的并行挖掘算法——MRAlgorithm_Add。算法利用MapReduce模型对新... 为了解决Algorithm_Add算法在挖掘大数据中的频繁模式时存在的内存占有量大和运行速度慢等问题,该文在深入研究Algorithm_Add算法的基础上,提出了基于MapReduce计算模型的并行挖掘算法——MRAlgorithm_Add。算法利用MapReduce模型对新增加模式进行处理,在各个节点上求出局部频繁模式,通过合并各个节点的结果得到全局频繁模式。介绍了MRAlgorithm_Add的设计思想,分析了算法的运行性能。实验结果表明MRAlgorithm_Add算法在Hadoop集群上运行,具有较好的加速比性能和良好的可扩展性。 展开更多
关键词 频繁模式 挖掘算法 Algorithm_Add算法 MAPREDUCE模型 HADOOP集群 MRAlgorithm_Add算法
在线阅读 下载PDF
HDFS可视化及其在QAR数据中的应用研究 预览
12
作者 冯兴杰 吴稀钰 《中国民航大学学报》 CAS 2017年第1期56-59,共4页
Hadoop是一个由Apache基金会开发的开源的云计算基础框架,主要由Hadoop分布式文件系统(HDFS,Hadoop distributed filesystem)和Map/Reduce分布式计算模型组成。其中,HDFS为海量数据提供分布式存储,如何方便快捷地使用并管理HDFS... Hadoop是一个由Apache基金会开发的开源的云计算基础框架,主要由Hadoop分布式文件系统(HDFS,Hadoop distributed filesystem)和Map/Reduce分布式计算模型组成。其中,HDFS为海量数据提供分布式存储,如何方便快捷地使用并管理HDFS成为目前亟待解决的问题。Hadoop提供了命令行接口与浏览器接口以访问HDFS,但是其浏览器接口的交互界面并不友好,给用户的使用带来了不便.因此目前用户访问HDFS主要是通过命令行的方式。为了方便用户使用并管理HDFS,在深入研究HDFS工作原理的基础上.采用struts2开源架构及JFree Chart图表绘制类库设计并实现了HDFS可视化系统。利用该系统实现了对海量QAR数据文件的分布式存储,提高了对QAR数据进行并行化数据挖掘的效率。 展开更多
关键词 HDFS 可视化 HADOOP QAR数据文件 集群管理
在线阅读 下载PDF
基于C4.5算法和Hadoop云计算平台的购物意愿分析方法 预览 被引量:1
13
作者 褚治广 颜飞 +1 位作者 张兴 李畅 《辽宁工业大学学报:自然科学版》 2017年第4期225-229,共5页
为适应大数据背景下的计算需求,首先根据C4.5算法计算原理的特点,对C4.5进行数据处理并行化改进。然后根据Hadoop云平台的特点,对数据处理流程进行简要说明。最后,通过搭建Hadoop云平台环境,使用随机生成的测试数据集对算法进行验证。... 为适应大数据背景下的计算需求,首先根据C4.5算法计算原理的特点,对C4.5进行数据处理并行化改进。然后根据Hadoop云平台的特点,对数据处理流程进行简要说明。最后,通过搭建Hadoop云平台环境,使用随机生成的测试数据集对算法进行验证。分析消费者可能购买的商品,实现数据的利用率最大化、提高交易成交率和挖掘潜在交易。通过实验分析得出,基于C4.5算法和Hadoop云计算平台的购物意愿分析方法可以应用到大型电商平台对消费者的购物意愿进行分析中。 展开更多
关键词 C4.5 HADOOP 计算集群 购物意愿 数据挖掘
在线阅读 下载PDF
一种Hadoop集群下的行为异常检测方法 预览
14
作者 蔡武越 王珂 +1 位作者 郝玉洁 段晓冉 《计算机工程与科学》 CSCD 北大核心 2017年第12期2185-2191,共7页
随着分布式计算技术的发展,Hadoop成为大规模数据处理领域的典型代表,由于安全机制相对薄弱,缺少用户行为活动的监控,容易受到隐藏的安全威胁,如数据泄露等。结合主成分分析计算的特点,基于MapReduce对其做并行化处理,克服了传... 随着分布式计算技术的发展,Hadoop成为大规模数据处理领域的典型代表,由于安全机制相对薄弱,缺少用户行为活动的监控,容易受到隐藏的安全威胁,如数据泄露等。结合主成分分析计算的特点,基于MapReduce对其做并行化处理,克服了传统主成分分析计算的缺点,提高了模型训练效率。提出了一种基于并行化主成分分析的异常行为检测方法,即比较当前用户的行为模式是否与历史行为模式相匹配作为判定用户行为异常与否的度量标准。实验表明该方法能够较好地发现用户的异常行为。 展开更多
关键词 HADOOP集群 主成分分析 异常检测 MAPREDUCE 行为模式
在线阅读 下载PDF
面向Hadoop集群并行处理的复杂交通环境监控视频中运动目标检测方法 预览
15
作者 李振 冯乔生 《软件》 2017年第11期147-155,共9页
复杂交通环境视频中运动目标的自动检测是智能视频犯罪侦查系统的关键技术之一。本文提出了一种在Hadoop集群上对复杂交通环境视频中的运动目标进行检测的方法——OHMOFD方法,该方法是对帧差法进行改进,有效地克服了传统帧差法检测运... 复杂交通环境视频中运动目标的自动检测是智能视频犯罪侦查系统的关键技术之一。本文提出了一种在Hadoop集群上对复杂交通环境视频中的运动目标进行检测的方法——OHMOFD方法,该方法是对帧差法进行改进,有效地克服了传统帧差法检测运动物体时容易出现孔洞的缺点并适合Hadoop集群并行处理。OHMOFD方法在Hadoop集群上实现了一层次并行运动目标检测。实验表明,车辆行人运动目标检测效果较好,检测效率也比运行在PC单机上的串行检测算法效率有明显提高。 展开更多
关键词 监控视频处理 运动目标检测 HADOOP集群 改进的帧差算法OHMOFD
在线阅读 下载PDF
Hadoop集群效能建模与评价 预览
16
作者 冯东煜 朱立谷 张雷 《中国传媒大学学报:自然科学版》 2017年第1期22-26,共5页
随着大数据技术的研究深入,Hadoop集群效能问题越来越引起业界的关注。如何有效地利用计算资源,使有限的资源发挥出最大的效能,成为大数据应用中一个迫切需要解决的问题。本文对Hadoop集群效能进行建模研究,建立以Hadoop集群单位时间完... 随着大数据技术的研究深入,Hadoop集群效能问题越来越引起业界的关注。如何有效地利用计算资源,使有限的资源发挥出最大的效能,成为大数据应用中一个迫切需要解决的问题。本文对Hadoop集群效能进行建模研究,建立以Hadoop集群单位时间完成的任务量与消耗能耗的比值来定义的Hadoop集群效能度量模型,并且基于该模型给出测量Hadoop集群效能所需的参数和度量方法。对不同硬件配置的Hadoop集群,选取CPU密集型和I/O密集型任务进行效能测试与评价。由测试结果可以得出机架服务器组成的Hadoop集群适合处理TB级的大规模数据,而PC组成的Hadoop集群更适合在要求不十分苛刻的场景处理10GB级及以下的中小规模数据,对生产环境中的Hadoop集群选型具有一定指导意义。 展开更多
关键词 HADOOP 集群 效能 MAPREDUCE
在线阅读 下载PDF
Hadoop异构集群中数据负载均衡的研究 预览 被引量:3
17
作者 张松 杜庆伟 +1 位作者 孙静 孙振 《计算机应用与软件》 CSCD 2016年第5期31-34,共4页
Hadoop平台下,数据的负载均衡对平台性能的发挥有着深远的影响。首先分析默认数据负载均衡的局限性,针对现有默认HDFS(Hadoop Distributed File System)数据负载均衡算法只考虑存储空间利用率,而未考虑节点间异构性的问题,提出一种量... Hadoop平台下,数据的负载均衡对平台性能的发挥有着深远的影响。首先分析默认数据负载均衡的局限性,针对现有默认HDFS(Hadoop Distributed File System)数据负载均衡算法只考虑存储空间利用率,而未考虑节点间异构性的问题,提出一种量化异构集群数据负载均衡的数学模型。该模型根据节点的存储空间及节点性能计算得到各个节点的理论空间利用率,并根据当前集群存储空间利用率动态调整节点最大负载。实验结果表明,提出的数据负载均衡策略能够让异构集群达到更合理的均衡状态,提高集群的效率,并有效减少作业的执行时间。 展开更多
关键词 HADOOP HDFS 数据负载均衡 异构集群
在线阅读 下载PDF
Hadoop集群作业调度算法优化技术研究 预览 被引量:2
18
作者 单冬红 郭静博 赵伟艇 《现代电子技术》 北大核心 2016年第6期25-29,共5页
针对当前云计算技术的广泛使用,提出对Hadoop集群作业调度算法进行研究的构想。在对Hadoop新版本中提出的Hadoop Map Reduce V2(Yarn)框架进行深入研究的基础上,设计一个详细完整的对比实验,针对各种作业调度算法的优势与不足进行全... 针对当前云计算技术的广泛使用,提出对Hadoop集群作业调度算法进行研究的构想。在对Hadoop新版本中提出的Hadoop Map Reduce V2(Yarn)框架进行深入研究的基础上,设计一个详细完整的对比实验,针对各种作业调度算法的优势与不足进行全面的测试。通过使用不同的作业调度算法运行相同的作业,进行细致横向的对比,并得到各种作业调度算法之间以及计算框架之间在计算能力、运行时间、资源占用等方面的优劣。实验结果表明,公平调度算法和计算能力调度算法相较于传统的FIFO算法具有更灵活、更高效的特点。 展开更多
关键词 云计算 HADOOP HDFS 作业调度 集群
在线阅读 下载PDF
海洋环境可视化云架构信息平台技术研究 预览 被引量:1
19
作者 吴振涛 王晓 《舰船科学技术》 北大核心 2016年第4X期181-183,共3页
首先构建海洋环境可视化云架构平台,规定利用云平台进行数据上传和存储时的数据格式,并指出在进行云计算时Hadoop中各个参数的设置。对海洋数据信息可视化处理中的基于LIC算法的流场可视化进行分析,最后进行性能测试。测试结果表明:利... 首先构建海洋环境可视化云架构平台,规定利用云平台进行数据上传和存储时的数据格式,并指出在进行云计算时Hadoop中各个参数的设置。对海洋数据信息可视化处理中的基于LIC算法的流场可视化进行分析,最后进行性能测试。测试结果表明:利用基于GPU的Hadoop云计算处理海量数据时加速比是CPU的20多倍,大大提高了计算速率。 展开更多
关键词 可视化云架构 HADOOP集群 流场可视化
在线阅读 下载PDF
Hadoop平台的自动化部署与监控研究 预览 被引量:5
20
作者 于金良 朱志祥 李聪颖 《计算机与数字工程》 2016年第12期2457-2461,共5页
为了解决Hadoop大数据平台的部署过程复杂以及运维难度大的问题,提出一种自动化部署与监控Hadoop平台的系统方案。该系统可以自动化部署Hadoop平台,并监控集群及其中各个服务的状态,统一管理集群中的资源。还对此系统进行了安装使用,明... 为了解决Hadoop大数据平台的部署过程复杂以及运维难度大的问题,提出一种自动化部署与监控Hadoop平台的系统方案。该系统可以自动化部署Hadoop平台,并监控集群及其中各个服务的状态,统一管理集群中的资源。还对此系统进行了安装使用,明显降低了集群部署的复杂度,以及使用过程中的运维成本,达到了预期的要求。 展开更多
关键词 HADOOP 自动化部署 监控 集群状态
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部 意见反馈