期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于Mean Decrease Impurity改进XGBoost算法 预览
1
作者 杜俊杰 朱永忠 丁根宏 《信息技术》 2019年第9期1-4,共4页
针对XGBoost算法在处理高维数据集分类准确率和效率下降的情况,文中提出一种基于mean decrease impurity算法改进的XGBoost算法;并设计频数算法解决mean decrease impurity算法对特征重要度排名的随机性。实验结果表明,本方法预测效率... 针对XGBoost算法在处理高维数据集分类准确率和效率下降的情况,文中提出一种基于mean decrease impurity算法改进的XGBoost算法;并设计频数算法解决mean decrease impurity算法对特征重要度排名的随机性。实验结果表明,本方法预测效率以及准确率要优于未改进XGBoost算法,同时mean decrease impurity算法也优于基于方差算法。因此,文中所提出的分类方法具有更高的准确率和效率。 展开更多
关键词 XGBoost 高维数据 mean DECREASE IMPURITY 集成学习
在线阅读 下载PDF
基于特征选择的统计最优样本大小算法 预览 被引量:2
2
作者 邓杰 钱雪忠 +1 位作者 钱恒 吴秦 《计算机应用研究》 CSCD 北大核心 2014年第12期3535-3538,3549共5页
针对统计最优样本大小算法在确定大数据集,尤其是高维数据集抽样样本大小时的执行效率较低,以及高维数据集中每一维属性的重要性不同且可能存在冗余属性,提出一种基于特征选择的统计最优样本大小算法。该算法基于熵理论,通过构造一个基... 针对统计最优样本大小算法在确定大数据集,尤其是高维数据集抽样样本大小时的执行效率较低,以及高维数据集中每一维属性的重要性不同且可能存在冗余属性,提出一种基于特征选择的统计最优样本大小算法。该算法基于熵理论,通过构造一个基于对象间相似度的熵度量方法来评估特征重要性,然后根据设计的一种挑选特征的标准获得重要的特征子集,最后在该特征子集上执行统计最优样本大小算法。实验结果表明,改进后算法得到的样本大小抽取的样本集能够在聚类算法中得到较高的准确率,同时也较明显地降低了算法的执行时间,从而验证了改进后的算法是有效可行的。 展开更多
关键词 统计最优样本大小算法 高维数据集 特征选择 聚类
在线阅读 下载PDF
基于双模调频分解的网络攻击信号检测仿真 预览 被引量:2
3
作者 杨君普 杨旺 于莹 《计算机仿真》 CSCD 北大核心 2015年第6期292-295,363共5页
传统方法主要是根据攻击信号的异常特征进行网络攻击信号检测,由于攻击信号的种类越来越复杂,传统方法无法克服检测过程中的“维数灾难”问题,很难适应网络高维异构数据集,尤其是针对大量样本集参与训练时,在寻找具有参数的网格搜索过... 传统方法主要是根据攻击信号的异常特征进行网络攻击信号检测,由于攻击信号的种类越来越复杂,传统方法无法克服检测过程中的“维数灾难”问题,很难适应网络高维异构数据集,尤其是针对大量样本集参与训练时,在寻找具有参数的网格搜索过程中耗费时间过长,无法满足网络攻击检测准确性和及时性的要求。提出一种引入双模调频分解算法的网络攻击信号检测方法。将网络攻击信号与分数阶傅里叶变换方法相互融合,利用高阶累积量切片因子消除噪声的干扰,依据最小均方误差方法,计算网络攻击信号的波束域约束指向形成,实现正交频谱分离,达到网络攻击信号检测的目的。仿真证明,基于双模调频分解算法的网络攻击信号检测方法精准度高,效率高。 展开更多
关键词 网络 攻击信号 维数灾难 高维异构数据集 噪声消除 波束形成
在线阅读 下载PDF
A Feature Subset Selection Technique for High Dimensional Data Using Symmetric Uncertainty 预览
4
作者 Bharat Singh Nidhi Kushwaha Om Prakash Vyas 《数据分析和信息处理(英文)》 2014年第4期95-105,共11页
With the abundance of exceptionally High Dimensional data, feature selection has become an essential element in the Data Mining process. In this paper, we investigate the problem of efficient feature selection for cla... With the abundance of exceptionally High Dimensional data, feature selection has become an essential element in the Data Mining process. In this paper, we investigate the problem of efficient feature selection for classification on High Dimensional datasets. We present a novel filter based approach for feature selection that sorts out the features based on a score and then we measure the performance of four different Data Mining classification algorithms on the resulting data. In the proposed approach, we partition the sorted feature and search the important feature in forward manner as well as in reversed manner, while starting from first and last feature simultaneously in the sorted list. The proposed approach is highly scalable and effective as it parallelizes over both attribute and tuples simultaneously allowing us to evaluate many of potential features for High Dimensional datasets. The newly proposed framework for feature selection is experimentally shown to be very valuable with real and synthetic High Dimensional datasets which improve the precision of selected features. We have also tested it to measure classification accuracy against various feature selection process. 展开更多
关键词 High DIMENSIONAL Datasets FEATURE SELECTION CLASSIFICATION Predominant FEATURE
在线阅读 免费下载
识别聚类间远近关系的双几何体模型 被引量:2
5
作者 王开军 严宣辉 陈黎飞 《中国科学:信息科学》 CSCD 2012年第1期 99-110,共12页
许多实际问题的解决不仅需要聚类算法给出类标,更依赖于类间远近关系的辨别.对于类数较多且高维数据的困难情况,基于降维的聚类结果可视化方法通常会出现聚类的重叠、交织或强行拉远现象,使得一些类间的远近关系无法分辨或被错误显... 许多实际问题的解决不仅需要聚类算法给出类标,更依赖于类间远近关系的辨别.对于类数较多且高维数据的困难情况,基于降维的聚类结果可视化方法通常会出现聚类的重叠、交织或强行拉远现象,使得一些类间的远近关系无法分辨或被错误显示;而现有的类间距离方法则不能揭示两个聚类是远离还是靠近.本文提出了双几何体模型方法来描述两个聚类的类问关系,并设计了相对边界距离、绝对边界距离和区域疏密程度等测量类间远近程度的方法.本文方法既考虑了两个聚类的最近样本集之间的绝对距离,也考虑了聚类边界区域的疏密程度,其优点是在上述困难情况下也能准确揭示高维空间中的类间关系.对真实数据集的实验结果表明,双几何体模型方法能有效地识别现有聚类可视化方法无法辨别的类间远近关系. 展开更多
关键词 双几何体模型 聚类间远近关系 大类数 高维数据 划分聚类算法
子空间聚类改进算法研究综述 预览 被引量:2
6
作者 李霞 徐树维 《计算机仿真》 CSCD 北大核心 2010年第5期 174-177,共4页
高维数据聚类是聚类技术的难点和重点,子空间聚类是实现高维数据集聚类的有效途径。CLIQUE算法是最早提出的基于密度和网格的子空间聚类算法,自动子空间聚类算法的实用性和高效性,带来了子空间聚类算法的空前发展。深入分析CLIQUE算... 高维数据聚类是聚类技术的难点和重点,子空间聚类是实现高维数据集聚类的有效途径。CLIQUE算法是最早提出的基于密度和网格的子空间聚类算法,自动子空间聚类算法的实用性和高效性,带来了子空间聚类算法的空前发展。深入分析CLIQUE算法的优点和局限性;介绍了一些近几年提出的子空间聚类算法,并针对CLIQUE算法的局限性作了改进,聚类的效率和精确性得到了提高;最后对子空间聚类算法的发展趋势进行了讨论。 展开更多
关键词 数据挖掘 聚类 高位数据集 子空间
在线阅读 下载PDF
子空间聚类算法的研究新进展 预览 被引量:3
7
作者 陈慧萍 王煜 王建东 《计算机仿真》 CSCD 2007年第3期 6-10,34,共6页
高维数据聚类是聚类技术的难点和重点,子空间聚类是实现高维数据集聚类的有效途径,它是在高维数据空间中对传统聚类算法的一种扩展,其思想是将搜索局部化在相关维中进行。该文从不同的搜索策略即自顶向下策略和自底向上策略两个方面... 高维数据聚类是聚类技术的难点和重点,子空间聚类是实现高维数据集聚类的有效途径,它是在高维数据空间中对传统聚类算法的一种扩展,其思想是将搜索局部化在相关维中进行。该文从不同的搜索策略即自顶向下策略和自底向上策略两个方面对子空间聚类算法的思想进行了介绍,对近几年提出的子空间聚类算法作了综述,从算法所需参数、算法对参数的敏感度、算法的可伸缩性以及算法发现聚类的形状等多个方面对典型的子空间聚类算法进行了比较分析,对子空间聚类算法面临的挑战和未来的发展趋势进行了讨论。 展开更多
关键词 数据挖掘 聚类 高维数据集 子空间
在线阅读 下载PDF
改进Parzen窗解决高维数据聚类的方法研究 预览 被引量:2
8
作者 柴 毅 利 节 唐 婧 《计算机工程与应用》 CSCD 北大核心 2011年第8期 135-137,共3页
由于高维数据聚类的现实意义日益增强,而Parzen窗估计法仅对低维数据集聚类能获得良好的结果,随着维数增加,效率降低,因此对Parzen窗进行加权改进,通过多次仿真实验确定加权函数,将高维数据投射至低维空间,对其聚类,逐步投向高... 由于高维数据聚类的现实意义日益增强,而Parzen窗估计法仅对低维数据集聚类能获得良好的结果,随着维数增加,效率降低,因此对Parzen窗进行加权改进,通过多次仿真实验确定加权函数,将高维数据投射至低维空间,对其聚类,逐步投向高维空间,对结果矩阵进行优化处理,得到更为优良的聚类效果。 展开更多
关键词 高维数据 PARZEN窗 聚类
在线阅读 下载PDF
高维大数据集中频繁闭合模式的挖掘 预览
9
作者 余光柱 王亮 +1 位作者 易先军 邵世煌 《计算机工程》 CAS CSCD 北大核心 2008年第17期 47-49,共3页
高维大数据集对现有的数据挖掘算法提出了挑战。该文把挖掘任务分解为挖掘频繁长模式与短模式2个子问题,提出一种在高维大数据集中挖掘长项集的算法,即inter-transaction。该算法利用了高维数据中长事务相交迅速变短的特性,通过事务... 高维大数据集对现有的数据挖掘算法提出了挑战。该文把挖掘任务分解为挖掘频繁长模式与短模式2个子问题,提出一种在高维大数据集中挖掘长项集的算法,即inter-transaction。该算法利用了高维数据中长事务相交迅速变短的特性,通过事务的交集运算直接得到长闭合模式,同时采用新的减枝策略,优化了事务交集运算的方法。实验表明,该方法对高维大数据集非常有效。 展开更多
关键词 高维大数据集 频繁闭合模式 减枝策略
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部 意见反馈