期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
一种基于倒排索引的频繁项集挖掘方法 预览
1
作者 贾丽波 姜晓明 +1 位作者 叶青 陈占芳 《长春理工大学学报:自然科学版》 2019年第2期117-119,124共4页
针对频繁项集挖掘算法中多次扫描数据库、生成大量无效频繁项集的问题,提出一种基于倒排索引和二维数组的挖掘算法。通过一次扫描数据库建立包含事务的倒排索引,解决多次扫描数据库的问题。在二维数组存储候选频繁项集时,引入标志位约束... 针对频繁项集挖掘算法中多次扫描数据库、生成大量无效频繁项集的问题,提出一种基于倒排索引和二维数组的挖掘算法。通过一次扫描数据库建立包含事务的倒排索引,解决多次扫描数据库的问题。在二维数组存储候选频繁项集时,引入标志位约束,避免产生大量无效的频繁项集。与其他算法在不同规模的数据集上进行性能比较,发现算法在数据集超过25万时执行效率优于其他算法。通过实验验证了所提出算法的高效性和可行性。 展开更多
关键词 频繁项集挖掘 倒排索引 二维数组
在线阅读 下载PDF
基于极大频繁项集的粒关联规则方法 预览
2
作者 李山山 张正炳 付青青 《长江大学学报:自然科学版》 CAS 2018年第21期17-21,78共6页
推荐系统已经被广泛应用于日常生活的各个领域,粒关联规则适用于推荐系统的冷启动问题,但粒关联规则存在规则集冗余而干扰推荐的问题。为解决该问题,从粒的性质出发,结合极大频繁项集可以紧凑地表示频繁项集的特点,提出基于极大频繁项... 推荐系统已经被广泛应用于日常生活的各个领域,粒关联规则适用于推荐系统的冷启动问题,但粒关联规则存在规则集冗余而干扰推荐的问题。为解决该问题,从粒的性质出发,结合极大频繁项集可以紧凑地表示频繁项集的特点,提出基于极大频繁项集的粒关联规则方法(MGR算法)来改进粒关联规则算法。利用MovieLens数据集,在不同阈值条件下,对比改进算法与传统粒关联规则算法的规则数量、运行时间和推荐准确率之间的关系。试验表明,改进的算法规则数量减少约1[]2,运行时间减少约2[]3,在不同阈值和不同划分比例的条件下,改进算法的推荐准确率均高于传统算法。 展开更多
关键词 粒关联规则 极大频繁项集 推荐系统 冷启动问题 数据挖掘
在线阅读 免费下载
基于云和频繁项集的认知测试性诊断方案权衡优化 预览
3
作者 刘新海 马彦恒 侯建强 《中国测试》 北大核心 2018年第3期11-15,共5页
对装备认知测试性智能决策问题,提出基于云和频繁项集的认知测试性诊断方案权衡优化方法。研究装备认知测试性中信息流在定性域和定量域的描述和转换方法,给出基于数据概要的中心云产生方法,实现事务数据清洗与筛选;研究基于频繁项... 对装备认知测试性智能决策问题,提出基于云和频繁项集的认知测试性诊断方案权衡优化方法。研究装备认知测试性中信息流在定性域和定量域的描述和转换方法,给出基于数据概要的中心云产生方法,实现事务数据清洗与筛选;研究基于频繁项集和新增项集的数据挖掘方法,提出基于2-范数及协方差的数据相关性分析方法,实现基于云和频繁项集的认知测试性诊断方案权衡优化的数据挖掘过程曰得到基于存储层-云层-应用层-决策层的认知测试性仿真诊断与权衡优化模型,并对该模型进行补充说明。该方案可为装备认知测试性诊断方案权衡优化的智能化发展奠定基础。 展开更多
关键词 认知测试性 频繁项集 数据挖掘 诊断方案
在线阅读 下载PDF
Chrome浏览器历史记录提取与分析 预览 被引量:1
4
作者 杨雪 靳慧云 《计算机应用与软件》 CSCD 2016年第12期313-317,共5页
如何提取浏览器历史记录并分析出有价值的信息是计算机调查取证中的重要问题。利用Chrome浏览器将历史数据存储在SQLite数据库这一特点,提出利用标准接口从SQLite数据库中提取数据并基于二级域名聚合及频繁项集挖掘的浏览器历史记录分... 如何提取浏览器历史记录并分析出有价值的信息是计算机调查取证中的重要问题。利用Chrome浏览器将历史数据存储在SQLite数据库这一特点,提出利用标准接口从SQLite数据库中提取数据并基于二级域名聚合及频繁项集挖掘的浏览器历史记录分析方法。能够获取用户曾经访问过的网站并根据需要依据这些网站被访问频次的高低展示前K个结果,支持按时间查询并展示用户的Web浏览记录及搜索过的关键词。实验结果证明了该方法的有效性。 展开更多
关键词 浏览器历史记录 提取与分析 域名聚合 频繁项集挖掘
在线阅读 下载PDF
基于随机相遇的频繁项集挖掘方法 预览 被引量:3
5
作者 赵文涛 付侃侃 +1 位作者 李素青 张霄宏 《河南理工大学学报:自然科学版》 CAS 北大核心 2015年第1期81-84,共4页
频繁项集挖掘是关联规则挖掘的重要内容,而现有的频繁项集挖掘算法在数据库扫描和复杂数据结构构建方面消耗过多的时间,效率较低。为克服现有频繁项集挖掘算法的不足,提出了基于随机相遇的频繁项集挖掘算法。在随机相遇过程中,不断从原... 频繁项集挖掘是关联规则挖掘的重要内容,而现有的频繁项集挖掘算法在数据库扫描和复杂数据结构构建方面消耗过多的时间,效率较低。为克服现有频繁项集挖掘算法的不足,提出了基于随机相遇的频繁项集挖掘算法。在随机相遇过程中,不断从原始事务集中随机挑选两条事务,将其交集作为新事务集中的元素,通过计算新事务集中最小支持度与原事务集中最小支持度的关系,将在原事务集上的频繁项集挖掘转化为在新事务集上的频繁项集挖掘,算法的时间复杂度和空间复杂度大大降低。由于随机样本蕴含原始数据集的主要统计特性,新事务集具有原事务集的统计特性,通过调整参数,算法在新事物集上挖掘结果的准确度可以得到保证。并利用一个零售超市的交易数据对该算法的有效性进行了测试。测试结果表明,该算法能将挖掘速度提升数十倍,同时挖掘结果的准确度和其它算法相差不大。 展开更多
关键词 数据挖掘 频繁项集挖掘 随机相遇算法 随机相遇 最小支持度
在线阅读 免费下载
一种基于FP-Growth的频繁项目集并行挖掘算法 预览 被引量:29
6
作者 章志刚 吉根林 《计算机工程与应用》 CSCD 2014年第2期103-106,共4页
FP.Growth算法是基于FP树挖掘频繁项目集的经典算法,为提高FP.Growth算法挖掘大规模数据频繁项目集的效率,提出了一种基于FP.Growth的频繁项目集并行挖掘算法FPPM。该算法基于Map/Reduce并行模型,在每个计算节点上首先构造局部... FP.Growth算法是基于FP树挖掘频繁项目集的经典算法,为提高FP.Growth算法挖掘大规模数据频繁项目集的效率,提出了一种基于FP.Growth的频繁项目集并行挖掘算法FPPM。该算法基于Map/Reduce并行模型,在每个计算节点上首先构造局部频繁模式树,并对之进行挖掘得到局部频繁项目集,然后合并局部频繁项目集以得到全局频繁项集,由于此时得到的结果并不完备,所以对合并后未达到最小支持度阈值的项目集,重新计算其支持数。介绍了FPPM算法的设计思想,测试了其性能。实验结果表明FPPM算法具有较好的可扩展性。 展开更多
关键词 频繁项目集 并行挖掘 FP Growth MAP REDUCE
在线阅读 下载PDF
隐私保护的一站多表跨多表频繁项集挖掘 预览 被引量:1
7
作者 林瑞 钟诚 华蓓 《计算机应用》 CSCD 北大核心 2013年第12期3437-3440,共4页
从多方合作挖掘分布存储在不同计算站点上多个数据库表而不泄露各方原始数据信息的目的出发,对于每个站点拥有多个数据表的分布式计算环境,基于三方安全协议,运用生成随机数扰乱方法,采取各站点并行挖掘频繁项集,将站点间各表数据... 从多方合作挖掘分布存储在不同计算站点上多个数据库表而不泄露各方原始数据信息的目的出发,对于每个站点拥有多个数据表的分布式计算环境,基于三方安全协议,运用生成随机数扰乱方法,采取各站点并行挖掘频繁项集,将站点间各表数据公共连接属性作等值连接,以安全协议计算全局站间跨表频繁项集支持数的策略,提出了一站多表的3站点跨多表频繁项集挖掘隐私保护算法。实验结果表明,该算法在高效地联合挖掘出跨多表频繁项集的同时保护了各站点的敏感信息。 展开更多
关键词 跨表挖掘 频繁项集 并行挖掘 隐私保护 多方安全协议
在线阅读 下载PDF
基于图的四叉链表存储结构的最大频繁项集挖掘算法 预览
8
作者 王春华 宁慧 +1 位作者 邹韵 郭江鸿 《应用科技》 CAS 2013年第1期76-79,共4页
虽然已有的最大频繁项集挖掘算法在结构和技术上已经做了很多改进,但还是存在挖掘速度慢、效率低的缺点,在此提出了图的四叉链表存储结构和基于该存储结构的最大频繁项集挖掘算法,该结构具有一次生成多次使用,不必耗用额外的存储空... 虽然已有的最大频繁项集挖掘算法在结构和技术上已经做了很多改进,但还是存在挖掘速度慢、效率低的缺点,在此提出了图的四叉链表存储结构和基于该存储结构的最大频繁项集挖掘算法,该结构具有一次生成多次使用,不必耗用额外的存储空间等特点,基于该存储结构的最大频繁项集挖掘算法充分利用了该存储结构的特点以及频繁扩展集的性质,有效地减少了冗余候选集的生成,降低了串的冗余存储,将串集合间的比较转化为整型数组的比较,从而使得它比已有的最大频繁项集挖掘算法在挖掘效率上有了明显的提高,最后通过实验证明了该算法较其他已有算法效率有了较大的提高. 展开更多
关键词 四叉链表 频繁项集 存储结构 挖掘算法
在线阅读 下载PDF
一种改进的关联规则挖掘算法 预览
9
作者 白雪峰 《电脑知识与技术》 2012年第2X期1015-1018,共4页
针对Apriori算法存在的缺陷,提出一种改进的关联规则算法。该算法对数据库中的项采用二进制编码,且只需扫描一次事物数据库就能找出所有的频繁项集,减少了扫描数据库的次数和计算成本,从而大大提高了算法的执行效率。
关键词 关联规则 APRIORI算法 频繁项集 数据挖掘 数据库
在线阅读 下载PDF
基于前缀树的高效频繁项集挖掘算法 预览 被引量:5
10
作者 才科扎西 黄景廉 《计算机工程》 CAS CSCD 北大核心 2010年第4期 42-44,共3页
针对频繁项集挖掘时间与空间效率低的问题,提出一种基于前缀树的高效频繁项集挖掘算法,通过对事务集进行预处理,创建索引表并分配索引编号,保证前缀树中事务顺序的一致性,根据索引编号等信息创建紧凑的前缀树,采用自底向上的挖掘... 针对频繁项集挖掘时间与空间效率低的问题,提出一种基于前缀树的高效频繁项集挖掘算法,通过对事务集进行预处理,创建索引表并分配索引编号,保证前缀树中事务顺序的一致性,根据索引编号等信息创建紧凑的前缀树,采用自底向上的挖掘与投影的方式挖掘出频繁项集。实验结果表明,该算法挖掘效率高、占用空间少。 展开更多
关键词 频繁项集 数据挖掘 前缀树
在线阅读 下载PDF
频繁项集快速挖掘算法研究 预览 被引量:10
11
作者 战立强 刘大昕 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2008年第3期 266-271,共6页
为了进一步提高频繁项集挖掘算法的可扩展性,对频繁项集的搜索空间以及FP-tree的操作方法进行了研究.提出了通过FP-tree的操作实现频繁项集快速挖掘的相关性质和新的搜索策略,在此基础上提出了基于FP-tree的频繁项集挖掘的改进算法... 为了进一步提高频繁项集挖掘算法的可扩展性,对频繁项集的搜索空间以及FP-tree的操作方法进行了研究.提出了通过FP-tree的操作实现频繁项集快速挖掘的相关性质和新的搜索策略,在此基础上提出了基于FP-tree的频繁项集挖掘的改进算法.算法运用递增构建候选项集模式树的策略缩小搜索空间,运用FP-tree的部分遍历操作简化搜索过程.在多个标准测试数据集上的实验结果表明,该算法的执行时间比同类算法减少了一个数量级,且占用较少的内存空间,因此该算法对于提高频繁项集和频繁闭项集的挖掘效率具有明显的效果. 展开更多
关键词 频繁项集挖掘 频繁闭项集 关联规则 FP-TREE
在线阅读 下载PDF
基于Apriori&Fp—growth的频繁项集发现算法 预览 被引量:12
12
作者 何中胜 庄燕滨 《计算机技术与发展》 2008年第7期 45-47,52,共4页
关联规则挖掘是数据挖掘中功能之一,而高效的关联规则挖掘算法研究引起了许多科研人员的兴趣。其中频繁项集的发现是关联规则挖掘算法中占比重最高、代价最大的步骤。从分析Apriori算法与Flp—growth算法性能的优缺点的基础上,提出了... 关联规则挖掘是数据挖掘中功能之一,而高效的关联规则挖掘算法研究引起了许多科研人员的兴趣。其中频繁项集的发现是关联规则挖掘算法中占比重最高、代价最大的步骤。从分析Apriori算法与Flp—growth算法性能的优缺点的基础上,提出了一种新的频繁项集发现算法:FA算法,该算法吸取了Apriori算法与Fp—growth算法的优点,通过实验表明该算法有较高的性能,且内存开销较少。 展开更多
关键词 频繁项集发现 条件模式树 关联规则挖掘
在线阅读 下载PDF
一种基于模式树的频繁项集快速挖掘算法 预览 被引量:2
13
作者 战立强 刘大昕 张健沛 《计算机工程与应用》 CSCD 北大核心 2007年第11期 15-16,207,共3页
模式树是目前频繁项集挖掘最常用的数据结构,使用模式树可以有效地将数据库压缩于内存,并在内存中完成对频繁项集的挖掘。为了进一步提高频繁项集挖掘算法的可扩展性,对模式树进行了细致的研究,在此基础上提出了一种挖掘频繁项集的... 模式树是目前频繁项集挖掘最常用的数据结构,使用模式树可以有效地将数据库压缩于内存,并在内存中完成对频繁项集的挖掘。为了进一步提高频繁项集挖掘算法的可扩展性,对模式树进行了细致的研究,在此基础上提出了一种挖掘频繁项集的新算法,FP—DFS算法。该算法通过对模式树的各种操作简化了对频繁项集的搜索过程。实验表明,该算法对于频繁项集挖掘具有比较高的效率。 展开更多
关键词 关联规则 频繁项集挖掘 可扩展性 模式树
在线阅读 下载PDF
基于概念格的频繁闭项集增量挖掘算法研究 预览 被引量:1
14
作者 战立强 刘大昕 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2007年第2期 194-197,227,共5页
近年的研究表明,概念格可以应用于解决频繁闭项集的挖掘问题.针对已有渐进式概念格构造算法中存在的问题,提出了一种基于概念格的频繁闭项集增量挖掘新算法——FIPT-I算法.新算法利用模式树对概念格进行组织,并利用模式树压缩数据... 近年的研究表明,概念格可以应用于解决频繁闭项集的挖掘问题.针对已有渐进式概念格构造算法中存在的问题,提出了一种基于概念格的频繁闭项集增量挖掘新算法——FIPT-I算法.新算法利用模式树对概念格进行组织,并利用模式树压缩数据库中的事务,在渐进式构造概念格的同时实现了事务的批处理,减少了概念格的调整操作时间.实验结果表明,与其他同类算法相比,FIPT-I算法对于增量挖掘频繁闭项集来说具有更高的效率. 展开更多
关键词 频繁闭项集 增量挖掘算法 模式树 概念格
在线阅读 下载PDF
流数据频繁项算法研究 预览
15
作者 罗超 李义杰 罗丹 《辽宁工程技术大学学报:自然科学版》 CAS 北大核心 2004年第z1期 57-59,共3页
流数据频繁项挖掘是一项重要的研究课题,是其他流数据挖掘任务的基础.Lossy Counting算法是第一个近似的流数据频繁项挖掘的算法,并且具有空间和时间的高效性.详细分析该算法,尤其是它不能回答关于时间的查询的不足后,对其进行改进,提... 流数据频繁项挖掘是一项重要的研究课题,是其他流数据挖掘任务的基础.Lossy Counting算法是第一个近似的流数据频繁项挖掘的算法,并且具有空间和时间的高效性.详细分析该算法,尤其是它不能回答关于时间的查询的不足后,对其进行改进,提出了一个在多时间粒度上挖掘流数据频繁项的设想,加入时间维度.改进后的算法在时间倾斜窗口保存与合并频繁项,可以应用于各种对时间敏感的流数据查询和挖掘应用中. 展开更多
关键词 数据挖掘 流数据挖掘 频繁项 频繁项挖掘
在线阅读 下载PDF
多尺度数据挖掘方法 预览 被引量:8
16
作者 柳萌萌 赵书良 +3 位作者 韩玉辉 苏东海 李晓超 陈敏 《软件学报》 EI CSCD 北大核心 2016年第12期3030-3050,共21页
多尺度理论已被引入到数据挖掘领域,但人们对其研究仍不够深入和完善,缺乏普适性理论与方法.随着大数据处理应用的不断深入,其研究变得更加迫切.针对上述问题,进行了普适的多尺度数据挖掘理论和方法的研究.首先,基于概念分层理论给出了... 多尺度理论已被引入到数据挖掘领域,但人们对其研究仍不够深入和完善,缺乏普适性理论与方法.随着大数据处理应用的不断深入,其研究变得更加迫切.针对上述问题,进行了普适的多尺度数据挖掘理论和方法的研究.首先,基于概念分层理论给出了数据尺度划分和数据尺度的定义以及多尺度数据集之间的上下层尺度数据集关系;其次,阐明了多尺度数据挖掘的定义、研究实质和方法分类;最后,提出了多尺度数据挖掘算法框架,给出其理论基础,并将此框架应用于关联规则挖掘,提出了多尺度关联规则挖掘算法MSARMA(multi-scale association rules mining algorithm),实现了多尺度数据集之间知识的跨尺度推导.利用IBM T10I4D100K数据集和H省全员人口真实数据集对MSARMA算法进行了实验和分析,实验结果表明:算法具有较高的覆盖率、精确度和较低的支持度估计误差,是可行且有效的. 展开更多
关键词 多尺度 频繁项集 关联规则 尺度转换 多尺度关联规则挖掘
在线阅读 下载PDF
软件源代码中的代码克隆现象及其检测方法 预览
17
作者 叶青青 《计算机应用与软件》 CSCD 北大核心 2008年第9期 147-149,159,共4页
如果软件源程序中的一个代码段和同一程序中的另一个代码段在结构或语义上类似,这些代码段就成了代码克隆。概述代码克隆存在的各种形式,分析代码克隆产生的原因,并在概括了代码克隆检测的一般过程以后进一步阐述两类代码克隆检测方... 如果软件源程序中的一个代码段和同一程序中的另一个代码段在结构或语义上类似,这些代码段就成了代码克隆。概述代码克隆存在的各种形式,分析代码克隆产生的原因,并在概括了代码克隆检测的一般过程以后进一步阐述两类代码克隆检测方法:基于语义抽象树的检测方法和基于Token序列的检测方法。 展开更多
关键词 代码克隆 软件维护 软件理解 语义抽象树 后缀树 频繁项集挖掘
在线阅读 下载PDF
基于最大频繁项集挖掘的入侵检测研究 预览 被引量:1
18
作者 黄松英 《绍兴文理学院学报》 2007年第10期 32-36,共5页
通过建立基于最大频繁项集系统的正常行为模型与攻击模型;采用滑动窗口是否有不被正常行为模型覆盖的频繁模式产生来检测入侵,提高在短时间内对频繁发生的攻击类型的检测精度和响应速度.
关键词 最大频繁项集挖掘 滑动窗口 入侵检测
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部 意见反馈