期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
基于网络爬虫的京东电商平台数据分析 预览 被引量:1
1
作者 魏倩男 贺正楚 陈一鸣 《经济数学》 2018年第1期77-85,共9页
以京东平台的网页数据抓取为例,研究如何提高网络爬虫技术对网页数据的抓取效率,进而对抓取到的数据进行数据挖掘和数据分析.该网络爬虫技术主要建立在分布式系统的基础上,多台计算机多线程同时运行,使数据抓取效率显著提高.分析... 以京东平台的网页数据抓取为例,研究如何提高网络爬虫技术对网页数据的抓取效率,进而对抓取到的数据进行数据挖掘和数据分析.该网络爬虫技术主要建立在分布式系统的基础上,多台计算机多线程同时运行,使数据抓取效率显著提高.分析京东平台的网页信息,统一分类,抓取分类下的商品信息,获取到网页内容后,利用解析器重建网页DOM树,通过JQUERY选择器,针对选择不同的标签名称和标识名称获取商品信息,把获取到的数据进行过滤、整合,然后进行数据挖掘和数据分析,对电商行业走势进行预测,进而指导电商运营团队决策. 展开更多
关键词 电商平台 数据分析 分布式系统 AJAX MapReduee Jumony CORE
在线阅读 下载PDF
基于MapReduce模型的电子商务欺诈信息挖掘方法 预览
2
作者 张家录 陆汝华 《湘南学院学报》 2018年第5期43-47,59共6页
分析电子商务欺诈信息的特点,用“成交时间至好评时间”“价格修改幅度”“申请退款占比”“有图评论占比”等检测指标来刻画“炒作商品销量”的特征,应用MapReduce框架下的K-means聚类算法,将电子商务产品的正常销量数据和炒作销量数... 分析电子商务欺诈信息的特点,用“成交时间至好评时间”“价格修改幅度”“申请退款占比”“有图评论占比”等检测指标来刻画“炒作商品销量”的特征,应用MapReduce框架下的K-means聚类算法,将电子商务产品的正常销量数据和炒作销量数据聚类,进而实现电子商务欺诈信息的分布式挖掘.实验结果表明,本文提出的方法是有效的. 展开更多
关键词 MAPREDUCE模型 电子商务 欺诈信息 分布式计算
在线阅读 下载PDF
云环境下海量语义数据的查询策略 预览
3
作者 胡志刚 景冬梅 +2 位作者 陈柏林 郑美光 杨柳 《中南大学学报:自然科学版》 CSCD 北大核心 2017年第5期1218-1226,共9页
为了实现对海量RDF数据的高效查询,研究RDF数据在分布式数据库HBase中的存储方法。基于MapReduce设计海量RDF数据的两阶段查询策略,将查询分为SPARQL预处理阶段与分布式查询执行阶段。SPARQL预处理阶段设计实现基于SPARQL变量关联度的... 为了实现对海量RDF数据的高效查询,研究RDF数据在分布式数据库HBase中的存储方法。基于MapReduce设计海量RDF数据的两阶段查询策略,将查询分为SPARQL预处理阶段与分布式查询执行阶段。SPARQL预处理阶段设计实现基于SPARQL变量关联度的查询划分算法JOVR,通过计算SPARQL查询语句中变量的关联度确定连接变量的连接顺序,根据连接变量将SPARQL子句连接操作划分到最小数量的MapReduce任务中;分布式查询执行阶段执行SPARQL预处理阶段划分的MapReduce任务,实现对海量RDF数据的并行查询。采用LUBM标准测试数据集对查询策略予以验证。研究结果表明:JOVR算法能够高效地实现对海量RDF数据的查询,并具有较强的稳定性与可扩展性。 展开更多
关键词 并行处理 语义信息查询策略 MapReduce SPARQL 海量RDF
在线阅读 下载PDF
分布式数据库聚合计算性能优化 预览 被引量:3
4
作者 肖子达 朱立谷 +1 位作者 冯东煜 张迪 《计算机应用》 CSCD 北大核心 2017年第5期1251-1256,共6页
针对分布式数据库在分析应用方面的聚合计算性能较低的问题,以Mongo DB数据库为研究实例,提出了一种基于片键和索引的数据库性能提升方法。首先,通过分析业务特征指导选择的片键字段,该字段需要保证数据在分片节点上的均匀布局;其次,通... 针对分布式数据库在分析应用方面的聚合计算性能较低的问题,以Mongo DB数据库为研究实例,提出了一种基于片键和索引的数据库性能提升方法。首先,通过分析业务特征指导选择的片键字段,该字段需要保证数据在分片节点上的均匀布局;其次,通过研究分布式数据库的索引效率,利用删除查询字段索引的方法进一步提升计算性能,该方法能充分利用硬件资源提高聚合计算的性能。实验结果表明,采用高基数粒度的分片片键能够让数据在集群上均匀地分布在各个数据节点上,而舍弃索引使用全表查询能够有效提高聚合计算的速度,聚合计算优化方法能够有效提高聚合计算的性能。 展开更多
关键词 NO SQL Mongo DB MAPREDUCE 聚合计算 性能优化
在线阅读 下载PDF
一种面向分布式数据流的闭频繁模式挖掘方法 预览 被引量:5
5
作者 唐颖峰 陈世平 《计算机应用研究》 CSCD 北大核心 2015年第12期3560-3564,3595共6页
对智能交通系统中面向分布式数据流的频繁模式挖掘问题进行了研究。针对智能交通系统中传感器网络数据流的特点,提出一种基于分布式窗口树的分布式数据流闭频繁模式挖掘方法。该方法在分布式节点中构建分布式窗口树,通过对分布式窗口树... 对智能交通系统中面向分布式数据流的频繁模式挖掘问题进行了研究。针对智能交通系统中传感器网络数据流的特点,提出一种基于分布式窗口树的分布式数据流闭频繁模式挖掘方法。该方法在分布式节点中构建分布式窗口树,通过对分布式窗口树进行更新、剪枝及挖掘,能够快速响应用户的查询请求,返回任意时间窗口内数据中的闭频繁模式。实验表明,在保证挖掘准确性的前提下,该方法能够有效缩短查询响应时间,并具有良好的可扩展性。 展开更多
关键词 智能交通系统 分布式数据流 闭频繁模式挖掘 MAPREDUCE 传感器网络
在线阅读 下载PDF
Hadoop平台下突发水污染应急预案并行化处置 预览 被引量:11
6
作者 李维乾 李莉 +1 位作者 张晓滨 吴涛 《西安工程大学学报》 CAS 2015年第6期733-739,共7页
针对突发水污染事件呈现的大数据特征,以及应急管理对应急高效率的需求,基于Ha-doop平台按照CBR(Case Based Reasoning CBR)推理过程设计了突发水污染事件应急预案的并行化处置方案,利用MapReduce框架实现了预案特征数据入库和预... 针对突发水污染事件呈现的大数据特征,以及应急管理对应急高效率的需求,基于Ha-doop平台按照CBR(Case Based Reasoning CBR)推理过程设计了突发水污染事件应急预案的并行化处置方案,利用MapReduce框架实现了预案特征数据入库和预案特征匹配检索的功能,并通过建立一级特征索引加快应急预案的检索速度,最终将应急预案特征数据及原始数据存储在HDFS(Hadoop Distributed File System,HDFS)分布式文件系统中.通过对陕西省渭河突发水污染事件应急管理过程进行模拟应用,结果表明,该方案可有效提升突发事件应急预案的生成效率,便于管理者和决策者快速应对突发事件,降低了突发事件的危害程度. 展开更多
关键词 突发水污染事件 应急预案 Hadoop MapReduce CBR
在线阅读 下载PDF
基于Hadoop的分布式视频车辆检索方法 预览
7
作者 李颜 仇洪冰 李燕龙 《电视技术》 北大核心 2015年第22期95-99,共5页
针对传统单机视频检索效率低下的问题,设计了一种基于Hadoop的分布式视频车辆检索方法。该方法首先将视频切割成多个分块,然后利用MapReduce和FFMPEG在分布式环境下提取视频帧,再通过车牌识别算法检索其中出现的车牌号码,最后计算... 针对传统单机视频检索效率低下的问题,设计了一种基于Hadoop的分布式视频车辆检索方法。该方法首先将视频切割成多个分块,然后利用MapReduce和FFMPEG在分布式环境下提取视频帧,再通过车牌识别算法检索其中出现的车牌号码,最后计算出车辆在视频中出现的时间。实验结果表明,与单机检索方式相比,该方式具有更强的数据处理能力和更高的检索效率。 展开更多
关键词 分布式处理 车辆检索 HADOOP MAPREDUCE FFMPEG
在线阅读 下载PDF
基于MapReduce的ROCK聚类算法 预览 被引量:1
8
作者 赵雪 陈龙飞 《河北科技师范学院学报》 CAS 2014年第1期26-32,共7页
随着大数据时代的到来,聚类分析算法将面临如数据量巨大、数据维数增加等挑战,分布式处理是解决这类问题的方法之一.本研究将ROCK算法与Hadoop平台相结合,按照分布式处理原则,通过计算机集群模式去处理大规模的多样性数据.实验证明,在Ha... 随着大数据时代的到来,聚类分析算法将面临如数据量巨大、数据维数增加等挑战,分布式处理是解决这类问题的方法之一.本研究将ROCK算法与Hadoop平台相结合,按照分布式处理原则,通过计算机集群模式去处理大规模的多样性数据.实验证明,在Hadoop平台下的ROCK聚类算法很大程度上提升了对高维数据进行聚类的能力. 展开更多
关键词 MAPREDUCE HADOOP ROCK聚类算法
在线阅读 下载PDF
基于MapReduce的可扩展协同聚类算法 预览
9
作者 马俏 万剑怡 王明文 《计算机与现代化》 2013年第11期52-57,共6页
协同聚类算法是通过同时对文档和特征进行聚类的一种聚类算法,该算法可以挖掘文档内部特征之间的潜在关系从而达到提高聚类效果的目的。随着大数据时代的到来,算法的并行化显示出它的优越性,为此本文对协同聚类算法进行全面的研究,... 协同聚类算法是通过同时对文档和特征进行聚类的一种聚类算法,该算法可以挖掘文档内部特征之间的潜在关系从而达到提高聚类效果的目的。随着大数据时代的到来,算法的并行化显示出它的优越性,为此本文对协同聚类算法进行全面的研究,并扩展它的并行算法,研究基于最小化残差平方和的协同聚类算法,利用MapReduce模式设计与实现协同聚类算法的并行化。实验结果表明,本文提出的并行协同聚类算法能够提高聚类的效率,并具有很好的可扩展性。 展开更多
关键词 协同聚类 MAPREDUCE 可扩展 残差平方和
在线阅读 下载PDF
云环境下基于MapReduce的多媒体共享处理系统 预览
10
作者 耿昌兴 孟少卿 +2 位作者 张辰 廖晓娜 鹿凯宁 《电子测量技术》 2012年第7期92-95,共4页
社交网络服务提供了便利的多媒体数据共享服务,然而,随着多媒体数据量的增加,例如高清电影、海量小图片、多媒体数据处理技术对计算机基础设施产生了很大的压力。对此,设计并实现了1个在云环境下基于MapReduce的多媒体共享与处理系统,... 社交网络服务提供了便利的多媒体数据共享服务,然而,随着多媒体数据量的增加,例如高清电影、海量小图片、多媒体数据处理技术对计算机基础设施产生了很大的压力。对此,设计并实现了1个在云环境下基于MapReduce的多媒体共享与处理系统,以减少服务器的负担和处理耗时。该系统使用Hadoop分布式文件系统模块,利用HDFS存储多媒体资源数据,采用MapReduce结合FFMPEG和JAI分别对视频和图像进行集中处理,系统添加Server端对初始多媒体数据进行识别,详细的阐述了各个模块的作用与原理。实验数据显示了多媒体数据处理耗时和对计算机的负载与单机处理方法的比对。结果表明,相比单机处理,新系统可以节约60%左右的时间,降低计算机30%左右的负载。 展开更多
关键词 云计算 HADOOP MAPREDUCE HDFS
在线阅读 下载PDF
基于Hadoop的分布式朴素贝叶斯文本分类 预览 被引量:9
11
作者 卫洁 石洪波 冀素琴 《计算机系统应用》 2012年第2期 210-213,共4页
云计算的诞生,有效地解决了海量数据集的存储和分析处理。在云计算实现的开源Hadoop分布式系统集群上,使用MapReduce并行编程模型,设计并实现了一种对TFIDF改进的分布式朴素贝叶斯文本分类算法。实验结果表明,基于Hadoop框架的分布式朴... 云计算的诞生,有效地解决了海量数据集的存储和分析处理。在云计算实现的开源Hadoop分布式系统集群上,使用MapReduce并行编程模型,设计并实现了一种对TFIDF改进的分布式朴素贝叶斯文本分类算法。实验结果表明,基于Hadoop框架的分布式朴素贝叶斯文本自动分类器不仅能处理节点失效,同时具有高效性和易扩展性的优势。 展开更多
关键词 HADOOP 朴素贝叶斯 MAPREDUCE 文本分类
在线阅读 下载PDF
基于MapReduce的高铁振动数据预处理 预览 被引量:5
12
作者 赵成兵 李天瑞 +1 位作者 王仲刚 高子喆 《南京大学学报:自然科学版》 CSCD 北大核心 2012年第4期390-396,共7页
从高铁数据中分析得到高速列车的运行状况对保障高铁安全至关重要.列车的振动数据就是其中之一,这些振动数据是通过多个传感器以一定的采样频率得来的.一个1~2d的测试实验将得到GB以上的数据,因此振动数据分析之前的预处理过程必... 从高铁数据中分析得到高速列车的运行状况对保障高铁安全至关重要.列车的振动数据就是其中之一,这些振动数据是通过多个传感器以一定的采样频率得来的.一个1~2d的测试实验将得到GB以上的数据,因此振动数据分析之前的预处理过程必不可少,包括异常点处理、消除线性趋势项等.异常点处理是指先用通用规则发现异常点,并用其邻近的数据点来恢复它的值.线性趋势项是指测试设备的原因使得采集的数据有一个线性的偏移,不处理偏移,则误差将会进一步累积.传统的振动数据预处理方法是顺序逐个处理文件,处理时间长,不能满足要求,且受内存的限制不能处理大文件.本文旨在提高振动数据的预处理效率,在研究现有高铁振动数据预处理方法和MapReduee机制的基础上,实现了包括异常点处理,线性趋势项消除方法的并行化,并在Hadoop平台上实现.同时设计了实验来验证方法的有效性和并行结果的一致性.实验在含6个节点(1个Master,5个Slaves)的集群上进行,实验结果表明所提出的方法可以处理大数据文件而且提高了处理效率.而且三个并行计算性能评价指标Speedup,sca[eup,Sizeup的实验结果也显示出本方法的优越性. 展开更多
关键词 并行化 MAPREDUCE 高铁 振动 预处理
在线阅读 免费下载
云计算现状研究 预览 被引量:4
13
作者 于志良 《电脑开发与应用》 2010年第10期 67-68,71,共3页
云计算是一种新兴的计算模型,探讨了云计算的定义与特点,从应用的角度给出了新的定义,介绍了云计算技术实例,剖析了其背后的技术含义以及云计算企业所采用的一种云计算实现方案,从技术、服务、标准等几个角度分析,对比国内外云计... 云计算是一种新兴的计算模型,探讨了云计算的定义与特点,从应用的角度给出了新的定义,介绍了云计算技术实例,剖析了其背后的技术含义以及云计算企业所采用的一种云计算实现方案,从技术、服务、标准等几个角度分析,对比国内外云计算业界动态和研究现状,对云计算的发展作了一些探讨和研究。 展开更多
关键词 云计算 GFS MAPREDUCE 云安全
在线阅读 下载PDF
基于MapReduce模型的并行遗传k-means聚类算法 预览 被引量:20
14
作者 贾瑞玉 管玉勇 李亚龙 《计算机工程与设计》 CSCD 北大核心 2014年第2期657-660,共4页
为了提高遗传k-means算法时间效率和聚类结果的正确率,利用遗传算法的粗粒度并行化设计思想,提出了在Hadoop平台下将遗传k-means算法进行并行化设计。将各个子种群编号作为个体区分,个体所包含的各个聚类中心和其适应度作为值共同作... 为了提高遗传k-means算法时间效率和聚类结果的正确率,利用遗传算法的粗粒度并行化设计思想,提出了在Hadoop平台下将遗传k-means算法进行并行化设计。将各个子种群编号作为个体区分,个体所包含的各个聚类中心和其适应度作为值共同作为个体的输入;在并行化过程中,设计了较优的种群迁移策略来避免早熟现象的发生。实验对不同的数据集进行处理,实验结果表明,并行化的遗传k-means算法在处理较大数据集时比传统的串行算法在时间上和最后的结果上都具有明显的优越性。 展开更多
关键词 遗传算法 K-MEANS算法 MAPREDUCE模型 HADOOP平台 并行化
在线阅读 下载PDF
面向大规模社交网络的潜在好友推荐方法 预览 被引量:7
15
作者 贺超波 汤庸 +2 位作者 陈国华 刘海 吴琳琳 《合肥工业大学学报:自然科学版》 CAS CSCD 北大核心 2013年第4期420-424,共5页
有效的潜在好友推荐是促进社交网络不断增长的重要途径,对于大规模社交网络环境下的复杂计算问题,文章提出了一种适用于大规模社交网络的潜在好友推荐方法,该方法首先将用户的潜在好友划分为“可能认识的”和“可能感兴趣的”2类,... 有效的潜在好友推荐是促进社交网络不断增长的重要途径,对于大规模社交网络环境下的复杂计算问题,文章提出了一种适用于大规模社交网络的潜在好友推荐方法,该方法首先将用户的潜在好友划分为“可能认识的”和“可能感兴趣的”2类,然后分别基于用户共同好友关系拓扑图和Profile文本相似性计算模型进行描述,最后基于MapReduce云计算模型对相关方法进行了设计实现。探讨了云计算环境下的潜在好友推荐系统框架设计、大规模用户共同好友关系拓扑图以及Profile文本相似性计算的方法,并通过实验以及应用实例验证了该方法的有效性以及可扩展性。 展开更多
关键词 好友推荐 社交网络 文本相似度MapReduce云计算模型
在线阅读 免费下载
一种面向云计算的改进的Mapreduce模型 预览 被引量:3
16
作者 方锦明 《计算机测量与控制》 CSCD 北大核心 2012年第5期 1417-1419,共3页
云计算的核心技术之一足MapReduce技术,目前国内外云计算研究机构都对MapReduce技术特别关注,并进行了基于不同体系结构上的实现研究,尤其是在对其所做的研究是基于开源hadoop平台,这些都为进一步研究提供了机遇;文章对传统MapRed... 云计算的核心技术之一足MapReduce技术,目前国内外云计算研究机构都对MapReduce技术特别关注,并进行了基于不同体系结构上的实现研究,尤其是在对其所做的研究是基于开源hadoop平台,这些都为进一步研究提供了机遇;文章对传统MapReduce模型的处理流程进行了介绍,分析了传统处理过程中目前存在的一些问题,最后针对这些问题详细阐述了模型的改进方案,改进的方案保证了ReduceTask均衡和控制了ReduceTask大小。 展开更多
关键词 分布式计算 MapReduce技术 虚拟技术 云计算
在线阅读 下载PDF
基于MapRedue的大规模矢量空间数据选择查询处理 预览
17
作者 何涛 刘强 +1 位作者 郑泽忠 刘帅 《科技创新导报》 2014年第9期193-194,共2页
为高效地处理大规模矢量空间数据,基于Hadoop的并行计算框架MapRedue,实现了一种分布式的矢量空间数据选择查询处理方法.首先,分析OGC简单要素标准与Hadoop的Key/Value数据模型,设计了可存储于Hadoop HDFS的矢量文件格式;其次,根据两阶... 为高效地处理大规模矢量空间数据,基于Hadoop的并行计算框架MapRedue,实现了一种分布式的矢量空间数据选择查询处理方法.首先,分析OGC简单要素标准与Hadoop的Key/Value数据模型,设计了可存储于Hadoop HDFS的矢量文件格式;其次,根据两阶段的过滤-精炼策略,对Map输入数据分片、选择查询处理过程及Reduce结果合并等关键步骤进行了详细阐述;最后,基于上述技术,利用Hadoop集群环境对所提出的方法进行验证,该方法具有较好的可行性和较高的效率. 展开更多
关键词 MapRedue 选择查询 存储模型 KEY VALUE 矢量数据文件
在线阅读 下载PDF
Parallel Spectral Clustering Based on MapReduce 预览 被引量:1
18
作者 Qiwei Zhong Yunlong Lin +3 位作者 Junyang Zou Kuangyan Zhu Qiao Wang Lei Hu 《中兴通讯技术:英文版》 2013年第2期45-50,共6页
Clustering is one of the most widely used techniques for exploratory data analysis.Spectral clustering algorithm,a popular modern clustering algorithm,has been shown to be more effective in detecting clusters than man... Clustering is one of the most widely used techniques for exploratory data analysis.Spectral clustering algorithm,a popular modern clustering algorithm,has been shown to be more effective in detecting clusters than many traditional algorithms.It has applications ranging from computer vision and information retrieval to social science and biology.With the size of databases soaring,clustering algorithms have scaling computational time and memory use.In this paper,we propose a parallel spectral clustering implementation based on MapReduce.Both the computation and data storage are distributed,which solves the scalability problems for most existing algorithms.We empirically analyze the proposed implementation on both benchmark networks and a real social network dataset of about two million vertices and two billion edges crawled from Sina Weibo.It is shown that the proposed implementation scales well,speeds up the clustering without sacrificing quality,and processes massive datasets efficiently on commodity machine clusters. 展开更多
关键词 聚类算法 计算机视觉 并行 数据分析技术 社会网络 传统算法 信息检索 内存使用
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部 意见反馈