期刊文献+
共找到46篇文章
< 1 2 3 >
每页显示 20 50 100
配用电大数据分布式计算集群负载均衡框架
1
作者 张令涛 赵林 +2 位作者 张亮 田国辉 孙湃 《电网技术》 EI CSCD 北大核心 2019年第1期259-265,共7页
为了解决配用电环节产生的大数据经常出现数据倾斜而造成分布式运算环境利用效率不高的现象,提出了一种用于配用电大数据分布式计算的负载均衡框架。框架首先定义了中间结果提前传输机制,通过限定范围的可控参数控制传输进程,将中间结... 为了解决配用电环节产生的大数据经常出现数据倾斜而造成分布式运算环境利用效率不高的现象,提出了一种用于配用电大数据分布式计算的负载均衡框架。框架首先定义了中间结果提前传输机制,通过限定范围的可控参数控制传输进程,将中间结果进行排序,传输低于负载均值的分片。然后介绍了分片的二次分拆原理,根据分片的大小动态决定分拆计划。完成分片的分拆之后,介绍了如何利用贪心启发式算法实现分拆结果的均衡分配,结合布隆滤波器实现了分拆后分片的传输。最后通过实验验证,文中提出的配用电负载均衡框架能够有效地提高配用电大数据分布式运算系统的效率,减少因数据倾斜造成的部分节点因运算任务过重而导致的总体执行时间过长现象。 展开更多
关键词 HADOOP 大数据 分布式计算 数据倾斜 负载均衡 配用电
应对倾斜数据流在线连接方法 预览
2
作者 王春凯 孟小峰 《软件学报》 CSCD 北大核心 2018年第3期869-882,共14页
并行环境下的分布式连接处理要求制定划分策略以减少状态迁移和通信开销.相对于数据库管理系统而言,分布式数据流管理系统中的在线θ连接操作需要更高的计算成本和内存资源.基于完全二部图的连接模型可支持分布式数据流的连接操作.... 并行环境下的分布式连接处理要求制定划分策略以减少状态迁移和通信开销.相对于数据库管理系统而言,分布式数据流管理系统中的在线θ连接操作需要更高的计算成本和内存资源.基于完全二部图的连接模型可支持分布式数据流的连接操作.因为连接操作的每个关系仅存放于二部图模型的一侧处理单元,无需复制数据,且处理单元相互独立,因此该模型具有内存高效、易伸缩和可扩展等特性.然而,由于数据流速的不稳定性和属性值分布的不均衡性,导致倾斜数据流的连接操作易出现集群负载不均衡的现象.针对倾斜数据流的连接操作,模型无法动态分配查询节点,并需要人工干预数据分组的参数设置.尤其是应对全部历史数据的连接查询,模型效率更低.基于上述问题,提出了管理倾斜数据流连接的框架,使用基于键值和元组混合的划分样式,有效应对二部图模型的各侧倾斜数据.设计了重新动态分配查询节点的策略和状态迁移算法,以支持全历史数据的连接查询和自适应的资源管理.针对合成数据和真实数据的实验结果表明,该方案可有效应对倾斜数据的连接操作,并进一步提升分布式数据流管理系统的吞吐率,特别是降低云环境中的计算成本. 展开更多
关键词 分布式数据流管理系统 在线连接 数据倾斜 状态迁移 二部图连接模型
在线阅读 下载PDF
离散粒子群优化算法实现MapReduce负载平衡 预览
3
作者 李安颖 陈群 宋荷 《自动化仪表》 CAS 2018年第12期56-59,共4页
MapReduce是Hadoop的核心模型之一,广泛应用于大数据处理。MapReduce模型将计算分为Map和Reduce两个处理阶段。但由于其自身的分区机制,导致在Reduce阶段处理数据时,会出现负载不平衡的数据倾斜问题。为了解决数据倾斜问题,提出利用离... MapReduce是Hadoop的核心模型之一,广泛应用于大数据处理。MapReduce模型将计算分为Map和Reduce两个处理阶段。但由于其自身的分区机制,导致在Reduce阶段处理数据时,会出现负载不平衡的数据倾斜问题。为了解决数据倾斜问题,提出利用离散粒子群算法解决Reduce阶段数据负载平衡问题。将数据分区策略与粒子群算法相结合,提高系统的稳定性。通过设置使数据分区均衡的目标函数,利用离散粒子群算法求解目标函数。试验结果证明,当设置不同数量的Reduce时,离散粒子群分区方式的运行时间均为最短,可有效解决数据分区的不平衡问题,并大大提升系统的计算效率。 展开更多
关键词 分布式计算 离散粒子群优化算法 数据倾斜 数据平衡 分区
在线阅读 下载PDF
MapReduce模型中基于直方图的数据均衡算法 预览
4
作者 周渭博 钟勇 王阳 《西北工业大学学报》 CSCD 北大核心 2018年第3期480-486,共7页
MapReduce模型是一种典型的分布式计算模型,被广泛应用于大规模数据处理,其性能很大程度上依赖于数据分布状态。由于数据内容往往都是不均衡的,再加上存储的随机性,因此MapReduce模型在计算过程中容易出现数据倾斜的问题。针对该问题,... MapReduce模型是一种典型的分布式计算模型,被广泛应用于大规模数据处理,其性能很大程度上依赖于数据分布状态。由于数据内容往往都是不均衡的,再加上存储的随机性,因此MapReduce模型在计算过程中容易出现数据倾斜的问题。针对该问题,通过改进的基于MapReduce的数据直方图并行构建算法,对数据块和整个文件分别建立数据直方图,根据数据块分布情况,判断每个存储节点的数据倾斜程度,并定义了文件均衡偏差值作为数据倾斜的度量标准,进而通过数据均衡算法来降低文件均衡偏差值。改进的基于MapReduce的数据直方图并行构建算法能够适应各种类型的数据应用场景,直方图构建过程中Map端向Reduce端只需要传输直方图统计信息,不需要传输文件内容,数据传输量几乎可以忽略不计;基于直方图的数据均衡算法采用了贪心策略,可以获得均衡分布最优解的一个比较好的近似解,经过不同数据多次实验验证,该算法与随机block分布算法相比,可以降低40%左右的文件均衡偏差值,具有更好的数据均衡效果。 展开更多
关键词 直方图 并行算法 数据倾斜 数据块 数据均衡 约束优化 实验设计
在线阅读 下载PDF
数据倾斜情况下基于MapReduce的连接算法 预览
5
作者 马清山 钟勇 王阳 《计算机应用》 CSCD 北大核心 2018年第A02期192-195,共4页
针对MapReduce计算框架不能直接支持连接操作以及在数据倾斜情况下的连接操作会造成某一个或者某几个reducer负载过重降低集群性能的现状,提出了数据倾斜连接算法(DSJA)。该算法首先对关系表中连接键出现的频率进行统计,得到倾斜连接键... 针对MapReduce计算框架不能直接支持连接操作以及在数据倾斜情况下的连接操作会造成某一个或者某几个reducer负载过重降低集群性能的现状,提出了数据倾斜连接算法(DSJA)。该算法首先对关系表中连接键出现的频率进行统计,得到倾斜连接键和非倾斜连接键以及它们各自连接后产生的结果数量;其次按照结果数量的比例分配将集群中的reducer分为处理倾斜连接的reducer和处理非倾斜连接的reducer;最后将倾斜数据平均地发送到处理倾斜数据的reducer以此实现负载均衡。通过与传统的哈希算法进行比较,DSJA的执行时间在数据倾斜度、数据量和集群中reducer个数三个方面都较少,尤其是在数据集中只出现一个属性值的倾斜的时候。 展开更多
关键词 数据倾斜 MAPREDUCE 连接算法 负载均衡 数据统计
在线阅读 下载PDF
基于索引偏移的MapReduce聚类负载均衡策略 预览
6
作者 周华平 刘光宗 张贝贝 《计算机科学》 CSCD 北大核心 2018年第5期303-309,共7页
MapReduce作为一种分布式编程模型,被广泛应用于大规模和高维度数据集的处理中。其采用原始Hash函数划分数据,当数据分布不均匀时,常会出现数据倾斜的问题。基于MapReduce的聚类算法,需要多次迭代且不清楚各阶段Reduce的输入数据分布,... MapReduce作为一种分布式编程模型,被广泛应用于大规模和高维度数据集的处理中。其采用原始Hash函数划分数据,当数据分布不均匀时,常会出现数据倾斜的问题。基于MapReduce的聚类算法,需要多次迭代且不清楚各阶段Reduce的输入数据分布,因此现有的解决数据倾斜的方法并不适用。为解决数据划分的不均衡问题,提出一种当存在数据倾斜时更改剩余分区索引的策略。该方法在Map运行的过程中统计将要分给各reducer的数据量,由JobTrackcr监控全局的分区信息并根据数据倾斜模型动态修改原分区函数;在接下来的分区过程中,Partitioner把即将导致倾斜的分区索引到其余负载较轻的reducer上,使各节点的负载达到均衡。基于Zipf分布数据集和真实数据集,将所提算法与现有的解决数据倾斜的方法进行对比,结果证明,所提策略解决了MapReduce聚类中的数据倾斜问题,且在稳定性与执行时间上优于Hash和基于采样的动态分区法。 展开更多
关键词 MAPREDUCE 数据倾斜 负载均衡 分布式聚类 索引偏移
在线阅读 免费下载
面向DNS日志的MapReduce性能优化技术研究 预览
7
作者 刘鹤煜 张棪 +2 位作者 杨兴华 崔华俊 谭倩 《智能计算机与应用》 2018年第2期73-77,共5页
DNS日志是互联网中重要的访问日志,数量巨大且承载着大量信息,需要借助大数据技术进行处理和分析。现网DNS日志数据量大,且数据倾斜现象严重,对MapReduce的性能有较为严重的影响。基于上述问题,采用小文件合并方法优化分片,缓解Map端的... DNS日志是互联网中重要的访问日志,数量巨大且承载着大量信息,需要借助大数据技术进行处理和分析。现网DNS日志数据量大,且数据倾斜现象严重,对MapReduce的性能有较为严重的影响。基于上述问题,采用小文件合并方法优化分片,缓解Map端的数据倾斜问题,并实现动态设置分片大小,提高MapReduce作业执行效率。该方法有效均衡了Map任务的负载,从而提高了数据倾斜情况下的MapReduce作业的执行效率和资源利用率。实验表明,使用该方法可以有效缩短MapReduce作业的执行时间。 展开更多
关键词 DNS日志 数据倾斜 MAPREDUCE 性能优化
在线阅读 免费下载
MapReduce在线抽样分区负载均衡研究 被引量:1
8
作者 陶永才 丁雷道 +1 位作者 石磊 卫琳 《小型微型计算机系统》 CSCD 北大核心 2017年第2期238-242,共5页
数据倾斜一直是影响MapReduce性能的关键问题之一.为缓解数据倾斜问题,提出一种基于抽样分区的MapReduce在线负载均衡机制:MR-LSP(MapReduce on-line Load balancing mechanism based on Sample Partition).MR-LSP在作业执行之前... 数据倾斜一直是影响MapReduce性能的关键问题之一.为缓解数据倾斜问题,提出一种基于抽样分区的MapReduce在线负载均衡机制:MR-LSP(MapReduce on-line Load balancing mechanism based on Sample Partition).MR-LSP在作业执行之前,通过对源数据抽样分析,预测数据的分布特征,动态采取相应的负载均衡数据分区策略;在作业运行期间实时监控节点负载,进一步动态优化数据分区策略.实验结果表明:MR-LSP能够提高系统3.2%的负载均衡,降低4.3%的作业执行时间,有效缓解了MapReduce的数据倾斜问题. 展开更多
关键词 -MapReduce 数据倾斜 动态调度 抽样分区
基于历史车牌识别数据的套牌车并行检测方法 预览 被引量:7
9
作者 李悦 刘晨 《计算机应用》 CSCD 北大核心 2016年第3期864-870,共7页
针对现有套牌车检测方法中所具有的成本高及检测效率低等缺点,提出一种基于历史车牌识别数据(ANPR)集的套牌车并行检测方法 TP-Finder,实现了基于整数划分的数据分块策略,能有效求解大规模数据并行处理时的数据倾斜问题,显著提升套牌... 针对现有套牌车检测方法中所具有的成本高及检测效率低等缺点,提出一种基于历史车牌识别数据(ANPR)集的套牌车并行检测方法 TP-Finder,实现了基于整数划分的数据分块策略,能有效求解大规模数据并行处理时的数据倾斜问题,显著提升套牌车辆的发现性能。此外,实现了基于TP-Finder方法的套牌车辆查询系统,可准确呈现所有疑似套牌车辆的历史行车轨迹。最后,在某市真实交通数据集上对TP-Finder方法的性能进行了实验验证。实验结果表明,与缺省的MapReduce分块策略相比较,TP-Finder的分块策略能够带来最大20%的性能提升。 展开更多
关键词 套牌车 车牌识别数据集 数据倾斜 数据划分 MAPREDUCE
在线阅读 下载PDF
基于Maxdiff直方图的MapReduce负载均衡研究 被引量:1
10
作者 陶永才 张丹丹 +1 位作者 石磊 卫琳 《小型微型计算机系统》 CSCD 北大核心 2016年第3期417-421,共5页
MapReduce作为处理大数据的分布式计算框架,被越来越多地应用在科学研究中.科研数据通常具有高度倾斜性.数据分布的均匀程度很大程度上影响着MapReduce的性能.当前MapReduce多采用Hash随机划分为Reduce阶段分配数据,当数据分布倾斜时,... MapReduce作为处理大数据的分布式计算框架,被越来越多地应用在科学研究中.科研数据通常具有高度倾斜性.数据分布的均匀程度很大程度上影响着MapReduce的性能.当前MapReduce多采用Hash随机划分为Reduce阶段分配数据,当数据分布倾斜时,会造成Reduce阶段各节点负载不均衡.为解决这一问题,提出一种基于Maxdiff直方图的负载均衡方法M HLB.采用M axdiff直方图估计M ap阶段输出中间结果的数据分布情况,并提出改进的数据划分方法,实现数据混洗过后数据记录的均衡划分.实验结果证明,在同构集群下,较之标准MapReduce,负载均衡方法 MHLB可有效实现各Reduce节点的负载均衡,降低作业运行时间. 展开更多
关键词 MAPREDUCE 数据倾斜 直方图 数据划分
基于MapReduce的两表数据倾斜连接的优化算法 预览
11
作者 赵宇兰 《吉林大学学报:理学版》 CAS CSCD 北大核心 2016年第6期1383-1387,共5页
针对Range partition算法不能优化数据集严重倾斜情形下的两表连接效率问题,提出一种改进的数据倾斜连接算法.该算法将倾斜数据和非倾斜数据区别处理,利用复制、广播方法将数据发送到每个Reduce节点,通过一轮Map/Reduce任务完成所有的... 针对Range partition算法不能优化数据集严重倾斜情形下的两表连接效率问题,提出一种改进的数据倾斜连接算法.该算法将倾斜数据和非倾斜数据区别处理,利用复制、广播方法将数据发送到每个Reduce节点,通过一轮Map/Reduce任务完成所有的连接操作,可有效均衡每个Reduce处理量,解决了数据严重倾斜对两表连接性能的影响.与传统的分区连接算法比较结果表明,该算法有效. 展开更多
关键词 MAPREDUCE RANGE partition算法 数据倾斜 连接算法优化
在线阅读 下载PDF
一种基于虚拟处理区间划分的负载均衡等值连接算法 预览
12
作者 胡忠奎 屈波 +1 位作者 黄斌 黎文阳 《现代计算机:上下旬》 2016年第2期3-7,共5页
数据分析和处理是大数据处理中最重要的任务,而等值连接又是数据分析中最常用、代价最高的操作之一。在实际的等值连接操作中,存在一个重要的问题就是数据倾斜:分配到每个任务的数据量不均衡。造成部分任务的完成时间更长,致使连接... 数据分析和处理是大数据处理中最重要的任务,而等值连接又是数据分析中最常用、代价最高的操作之一。在实际的等值连接操作中,存在一个重要的问题就是数据倾斜:分配到每个任务的数据量不均衡。造成部分任务的完成时间更长,致使连接性能受到严重影响。为解决这个问题,提出一种负载均衡的等值连接算法(VPRP),通过采样估计数据集在连接属性上的数据分布情况,并采用虚拟分区和交叉映射的方法,在倾斜严重的数据周围划分出更多的区间,以增加数据分配的均衡性,同时消减连接噪声对整体性能的消极影响,最后实验验证该算法的有效性。 展开更多
关键词 等值连接 负载均衡 数据倾斜 范围分割
在线阅读 免费下载
基于MapReduce的等值连接中数据倾斜问题研究 预览
13
作者 褚龙现 《电脑知识与技术:学术交流》 2016年第11Z期226-228,共3页
针对Map Reduce计算框架下实现数据表等值连接时不能很好地处理数据倾斜的问题,详细分析了数据倾斜带来的任务负载不均匀问题和解决思路,结合两表之间传统连接算法和广播连接算法思想,提出将倾斜数据和非倾斜数据区别对待的分区连接算... 针对Map Reduce计算框架下实现数据表等值连接时不能很好地处理数据倾斜的问题,详细分析了数据倾斜带来的任务负载不均匀问题和解决思路,结合两表之间传统连接算法和广播连接算法思想,提出将倾斜数据和非倾斜数据区别对待的分区连接算法。实验结果表明,提出的算法很好地解决了数据倾斜问题下任务负载均衡问题,有效提高了两表之间等值连接查询效率。 展开更多
关键词 数据倾斜 连接 MAP REDUCE 分区
在线阅读 下载PDF
基于MapReduce的数据倾斜连接算法 预览 被引量:2
14
作者 梁俊杰 何利民 《计算机科学》 CSCD 北大核心 2016年第9期27-31,共5页
连接操作是大规模数据集在数据分析应用中最常用的操作,针对MapReduce自身不能有效地处理数据倾斜情况下的连接操作,提出了基于MapReduce的频次分类连接算法。根据数据在连接数据集中出现的频率将整个数据集分为3类,对倾斜数据利用... 连接操作是大规模数据集在数据分析应用中最常用的操作,针对MapReduce自身不能有效地处理数据倾斜情况下的连接操作,提出了基于MapReduce的频次分类连接算法。根据数据在连接数据集中出现的频率将整个数据集分为3类,对倾斜数据利用分区算法和广播算法实现数据重分布,以消除数据倾斜的影响;对非倾斜数据采用Hash算法实现数据重分布。重分布后的数据在单节点内即可完成数据连接操作,避免了MapReduce框架下连接操作的跨节点传输代价;同时有效地均衡了MapReduce各节点的任务负载,从而提高了数据倾斜状态下连接操作的效率。通过与传统连接算法的对比,证明了所提算法的有效性和实用性。 展开更多
关键词 数据倾斜 MAPREDUCE 连接算法 负载均衡
在线阅读 免费下载
阵列众核结构上的一种多层分区Hash连接算法 预览
15
作者 石嵩 宁永波 +1 位作者 李宏亮 郑方 《计算机科学》 CSCD 北大核心 2016年第3期18-22,共5页
连接是数据查询处理中最耗时、使用最频繁的操作之一,对提高连接操作的速率具有重要意义.阵列众核处理器是一类重要的众核处理器,具有强大的并行能力,可用来加速并行计算.基于阵列众核处理器的结构,设计和优化了一种高效的多层分区Hash... 连接是数据查询处理中最耗时、使用最频繁的操作之一,对提高连接操作的速率具有重要意义.阵列众核处理器是一类重要的众核处理器,具有强大的并行能力,可用来加速并行计算.基于阵列众核处理器的结构,设计和优化了一种高效的多层分区Hash连接算法.该算法通过多层划分的策略大大降低了主存访问次数,通过分区重排方法有效消除了数据倾斜的影响,获得了很高的性能.在异构融合阵列众核处理器DFMC(Deeply-Fused Many Core)原型系统上的实验结果表明,DFMC上多层分区Hash连接算法的性能是CPU-GPU耦合结构上最快的连接算法的8.0倍,表明利用阵列众核处理器加速数据查询应用具有优势. 展开更多
关键词 阵列众核 Hash连接 数据倾斜 并行算法
在线阅读 免费下载
数据本地性感知的MapReduce负载均衡策略 预览 被引量:3
16
作者 李航展 秦小麟 沈尧 《计算机科学》 CSCD 北大核心 2015年第10期50-56,共7页
现有针对MapReduce的负载均衡调度的研究均未考虑中间数据的分布特点及网络传输的开销,导致额外的网络传输代价与系统效率的下降.为解决上述问题,提出了一种数据本地性感知的负载均衡策略.充分利用YARN中资源管理的新特性,在Map阶段对... 现有针对MapReduce的负载均衡调度的研究均未考虑中间数据的分布特点及网络传输的开销,导致额外的网络传输代价与系统效率的下降.为解决上述问题,提出了一种数据本地性感知的负载均衡策略.充分利用YARN中资源管理的新特性,在Map阶段对内存数据溢写的同时进行统计以获取数据分布,根据数据分布情况及各节点的计算能力进行任务调度,减少网络传输开销的同时尽量保证各节点的负载平衡.此外,通过引入细粒度分区与分区的自适应分裂策略,进一步提高在数据倾斜时调度策略的性能.对比实验结果表明,提出的负载均衡调度策略能有效提升性能,同时较好地降低网络总开销. 展开更多
关键词 数据本地性 数据倾斜 负载均衡
在线阅读 免费下载
基于KNN算法的改进的一对多SVM多分类器 预览 被引量:3
17
作者 刘雨康 张正阳 +1 位作者 陈琳琳 陈静 《计算机工程与应用》 CSCD 北大核心 2015年第24期126-131,共6页
针对传统支持向量机(SVM)多分类一对多算法存在的运算量大、耗时长、数据偏斜以及对最优超平面附近点分类易出错问题,提出了一种改进方法。将数据空间分为密集区和稀疏区,各类中密集点归于密集区,其余归于稀疏区。将每类中密集点连同... 针对传统支持向量机(SVM)多分类一对多算法存在的运算量大、耗时长、数据偏斜以及对最优超平面附近点分类易出错问题,提出了一种改进方法。将数据空间分为密集区和稀疏区,各类中密集点归于密集区,其余归于稀疏区。将每类中密集点连同它附近的点用于训练得到相应的SVM分类器。在测试阶段,对密集区的待测样本用传统的一对多判别准则来做类别预测;对稀疏区的待测样本则采用K近邻(KNN)算法。数值实验结果表明,改进的算法在耗时和分类精度上都优于原算法,对解决一对多算法存在的问题有较好的成效。 展开更多
关键词 支持向量机(SVM) 一对多 K近邻(KNN) 数据偏斜
在线阅读 下载PDF
MapReduce计算模型下基于虚拟分区的数据倾斜处理方法
18
作者 高宇飞 曹仰杰 +1 位作者 陶永才 石磊 《小型微型计算机系统》 CSCD 北大核心 2015年第8期1706-1710,共5页
针对MapReduee计算模型Hash分区策略易引发Reduce阶段输入数据倾斜问题,提出基于Hash虚拟平衡重分区的数据倾斜处理算法HVBR-SH(Hash Virtual Balance Repartitioning based Skew Handling).HVBR—SH在Map阶段采用虚拟分区,使得〈... 针对MapReduee计算模型Hash分区策略易引发Reduce阶段输入数据倾斜问题,提出基于Hash虚拟平衡重分区的数据倾斜处理算法HVBR-SH(Hash Virtual Balance Repartitioning based Skew Handling).HVBR—SH在Map阶段采用虚拟分区,使得〈Key,Value〉键值对分散存储,为后续重分区提供更优分区组合;在Reduce阶段,HVBR—SH利用连续虚拟分区平衡重组的方法将收集到的虚拟分区重新划分成与Reduce任务数相同分区,并确保重分区后最大分区的数据量最小,加快整个Reduce阶段的执行速度.对比实验结果表明,HVBR—SH算法能有效平衡各个Reduce任务的输入规模并控制运行时间,有效改善了Re—duce输入倾斜问题,提高了MapReduce任务的执行效率. 展开更多
关键词 MAPREDUCE 数据倾斜 虚拟分区
基于压力反馈的MapReduce负载均衡策略 预览 被引量:2
19
作者 李航晨 秦小麟 沈尧 《计算机科学》 CSCD 北大核心 2015年第4期141-146,共6页
数据倾斜是严重影响MapReduce性能的因素之一。数据倾斜问题的现有解决方法需要用户对应用类型提供针对的分区函数,或是为MapReduce编写额外的采样过程,增加了用户的负担。为解决上述问题,提出了一种基于压力统计的负载均衡策略。该策... 数据倾斜是严重影响MapReduce性能的因素之一。数据倾斜问题的现有解决方法需要用户对应用类型提供针对的分区函数,或是为MapReduce编写额外的采样过程,增加了用户的负担。为解决上述问题,提出了一种基于压力统计的负载均衡策略。该策略充分利用MapReduce中的混洗阶段,在reducer准备数据的同时进行统计,以获取全局数据分布。系统根据数据分布情况对负载较重节点进行调度,平衡整个集群负载,而无需用户提供额外的输入。此外,考虑到上层不同的应用类型,引入了压力反馈机制来进一步提高调度策略的性能。实验结果表明,提出的负载均衡调度策略的性能优于默认策略性能。 展开更多
关键词 MAPREDUCE 数据倾斜 负载均衡 压力反馈
在线阅读 免费下载
基于移动通信数据的流动人口统计中的Hive优化 预览 被引量:2
20
作者 周天绮 《软件工程师》 2015年第7期57-59,56共4页
针对电信大数据在流动人口统计中的处理需求,采用Intel?Hadoop发行版,设计Hive数据仓库并进行优化,重点对性能影响较大的join连接和数据倾斜问题进行了优化。实验表明,对于TB级数据,简单统计如count、sum等可在10分钟以内完成,聚合统计... 针对电信大数据在流动人口统计中的处理需求,采用Intel?Hadoop发行版,设计Hive数据仓库并进行优化,重点对性能影响较大的join连接和数据倾斜问题进行了优化。实验表明,对于TB级数据,简单统计如count、sum等可在10分钟以内完成,聚合统计如join、group by等可在30分钟左右完成,能有效支撑大数据环境下的流动人口统计和监测。 展开更多
关键词 Hive 优化 JOIN 数据倾斜
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部 意见反馈