期刊文献+
共找到30,874篇文章
< 1 2 250 >
每页显示 20 50 100
聚类算法综述 预览 被引量:5
1
作者 章永来 周耀鉴 《计算机应用》 CSCD 北大核心 2019年第7期1869-1882,共14页
大数据时代,聚类这种无监督学习算法的地位尤为突出。近年来,对聚类算法的研究取得了长足的进步。首先,总结了聚类分析的全过程、相似性度量、聚类算法的新分类及其结果的评价等内容,将聚类算法重新划分为大数据聚类与小数据聚类两个大... 大数据时代,聚类这种无监督学习算法的地位尤为突出。近年来,对聚类算法的研究取得了长足的进步。首先,总结了聚类分析的全过程、相似性度量、聚类算法的新分类及其结果的评价等内容,将聚类算法重新划分为大数据聚类与小数据聚类两个大类,并特别对大数据聚类作了较为系统的分析与总结。此外,概述并分析了各类聚类算法的研究进展及其应用概况,并结合研究课题讨论了算法的发展趋势。 展开更多
关键词 聚类 相似性度量 大数据聚类 小数据聚类 聚类评价
在线阅读 下载PDF
基于KL散度的密度峰值聚类算法 预览
2
作者 丁志成 葛洪伟 周竞 《重庆邮电大学学报:自然科学版》 CSCD 北大核心 2019年第3期367-374,共8页
快速搜索与发现密度峰值聚类(clustering by fast search and find of density peaks,DPC)算法对聚类中心点进行了全新的定义,能够得到更优的聚类结果。但该算法需要手动选取聚类中心,容易出现多选、漏选聚类中心的问题。提出一种自动... 快速搜索与发现密度峰值聚类(clustering by fast search and find of density peaks,DPC)算法对聚类中心点进行了全新的定义,能够得到更优的聚类结果。但该算法需要手动选取聚类中心,容易出现多选、漏选聚类中心的问题。提出一种自动选取聚类中心的密度峰值聚类算法。将参数积γ引入新算法以扩大聚类中心的选取范围,利用KL散度的差异性度量准则对聚类中心点和非聚类中心点进行清晰划分,以Dkl排序图中的拐点作为分界点实现了对聚类中心的自动选取。在人工以及UCI数据集上的实验表明,新算法能够在自动选取聚类中心的同时,获得更好的聚类效果。 展开更多
关键词 聚类 密度峰值聚类(DPC) 密度聚类 自动聚类
在线阅读 免费下载
Shadow Detection Method Based on HMRF with Soft Edges for High-Resolution Remote-Sensing Images 预览
3
作者 Wenying Ge 《信号与信息处理(英文)》 2019年第4期200-210,共11页
Shadow detection is a crucial task in high-resolution remote-sensing image processing. Various shadow detection methods have been explored during the last decades. These methods did improve the detection accuracy but ... Shadow detection is a crucial task in high-resolution remote-sensing image processing. Various shadow detection methods have been explored during the last decades. These methods did improve the detection accuracy but are still not robust enough to get satisfactory results for failing to extract enough information from the original images. To take full advantage of various features of shadows, a new method combining edges information with the spectral and spatial information is proposed in this paper. As known, edge is one of the most important characteristics in the high-resolution remote-sensing images. Unfortunately, in shadow detection, it is a high-risk strategy to determine whether a pixel is the edge or not strictly because intensity values on shadow boundaries are always between those in shadow and non-shadow areas. Therefore, a soft edge description model is developed to describe the degree of each pixel belonging to the edges or not. Sequentially, the soft edge description is incorporating to a fuzzy clustering procedure based on HMRF (Hidden Markov Random Fields), in which more appropriate spatial contextual information can be used. More concretely, it consists of two components: the soft edge description model and an iterative shadow detection algorithm. Experiments on several remote sensing images have shown that the proposed method can obtain more accurate shadow detection results. 展开更多
关键词 SHADOW Detection SOFT EDGES CLUSTERING REMOTE-SENSING Images
在线阅读 免费下载
基于平均差异度的改进k-prototypes聚类算法 预览
4
作者 石鸿雁 徐明明 《沈阳工业大学学报》 CAS 北大核心 2019年第5期555-559,共5页
针对k-prototypes聚类算法随机选取初始聚类中心导致聚类结果不稳定,以及现有的大多数混合属性数据聚类算法聚类质量不高等问题,提出了基于平均差异度的改进k-prototypes聚类算法.通过利用平均差异度选取初始聚类中心,避免了初始聚类中... 针对k-prototypes聚类算法随机选取初始聚类中心导致聚类结果不稳定,以及现有的大多数混合属性数据聚类算法聚类质量不高等问题,提出了基于平均差异度的改进k-prototypes聚类算法.通过利用平均差异度选取初始聚类中心,避免了初始聚类中心点选取的随机性,同时利用信息熵确定数值数据的属性权重,并对分类属性度量公式进行改进,给出了一种混合属性数据度量公式.结果表明,改进后的算法具有较高的准确率,能够有效处理混合属性数据. 展开更多
关键词 k-prototypes算法 聚类 初始聚类中心 混合属性数据 平均差异度 信息熵 属性权重 度量公式
在线阅读 下载PDF
A Clustering Approach for Customer Billing Prediction in Mall: A Machine Learning Mechanism 预览
5
作者 Sriramakrishnan Chandrasekaran Abhishek Kumar 《电脑和通信(英文)》 2019年第3期55-66,共12页
Machine learning implementations are being done in a long way in science and technology and especially in medical stream. In this article, we are focusing on machine learning implementation on mall customers and based... Machine learning implementations are being done in a long way in science and technology and especially in medical stream. In this article, we are focusing on machine learning implementation on mall customers and based on their income and how they can invest in the purchase in a mall. This explains the features like Customer ID, gender, age, income, and spending score. There, we mentioned a score in purchasing the goods in the mall. In this scenario, we are implementing clustering mechanisms, and here we apply the dataset of mall customers which is a public dataset and create clusters related to the customer purchase. We implement machine learning models for the prediction of whether the visited customer will purchase any product or not. For this kind of works, we require many of the inputs like the features mentioned in the paper. To maintain the features, we require a model with machine learning capability. We are performing K-Means clustering and Hierarchical clustering mechanisms, and finally, we implement a confusion matrix to achieve and identify the highest accuracy in those two algorithms. Here, we consider machine learning mechanisms to predict the category of the customer about whether they can buy a product or not based on the independent variables. This work presents you a simple machine learning prediction model based on which we can predict the category of the customer based on clustering. Before clustering, we don’t know to what group they belong to. But after clustering, we can identify the category that data node belongs to. In this article, we are mentioning the process of determining the employee based information using machine learning clustering mechanisms. 展开更多
关键词 CLUSTERING Machine Learning CATEGORY Technology Hierarchical K-Means
在线阅读 免费下载
基于样本对加权共协关系矩阵的聚类集成算法 预览
6
作者 王彤 魏巍 王锋 《南京大学学报:自然科学版》 CAS CSCD 北大核心 2019年第4期592-600,共9页
聚类集成的目标是通过集成多个聚类结果来提高聚类算法的稳定性、鲁棒性以及精度.近些年,聚类集成受到了越来越多的关注.现有的集成聚类通常平等地对待所有基聚类,而不考虑它们的重要度.虽然学者们已经在这一方面做出了一些努力,例如使... 聚类集成的目标是通过集成多个聚类结果来提高聚类算法的稳定性、鲁棒性以及精度.近些年,聚类集成受到了越来越多的关注.现有的集成聚类通常平等地对待所有基聚类,而不考虑它们的重要度.虽然学者们已经在这一方面做出了一些努力,例如使用加权策略来改进共协关系矩阵,但无论是给基聚类加权还是对类重要度评价时都忽略了样本对于其所在类贡献的差异.为此,提出了基于样本对加权共协关系矩阵的聚类集成算法,该算法利用k.means算法产生多个基聚类结果,然后对于其中的每个类再利用k.means算法产生多个小类,并计算去掉样本对所在的小类后类的不确定性变化的程度来评价该样本对的重要度,最后通过层次聚类算法得到聚类结果.在六个UCI数据集上的实验结果表明,基于样本对加权共协关系矩阵的聚类集成算法的性能优于三种经典的基于共协关系矩阵的聚类集成算法。 展开更多
关键词 聚类 聚类集成 共协矩阵 加权策略
在线阅读HTML 免费下载
MapReduce框架下常用聚类算法比较研究 预览
7
作者 张占峰 耿珊珊 《河北省科学院学报》 CAS 2019年第2期1-6,共6页
大数据处理在各个行业的应用中占有越来越重要的地位。本文以基于MapReduce框架的大数据处理平台为基础,分析了MapReduce计算框架的工作流程及在该框架下四种常用的聚类算法,包括K-means算法、密度聚类算法、FCM算法与层次聚类算法的原... 大数据处理在各个行业的应用中占有越来越重要的地位。本文以基于MapReduce框架的大数据处理平台为基础,分析了MapReduce计算框架的工作流程及在该框架下四种常用的聚类算法,包括K-means算法、密度聚类算法、FCM算法与层次聚类算法的原理与优缺点,并对这些算法的进一步优化进行了分析。 展开更多
关键词 大数据处理 MAPREDUCE 聚类 聚类算法 算法描述
在线阅读 下载PDF
k近邻约束的稀疏子空间聚类 预览
8
作者 刘玉馨 何光辉 《计算机工程与应用》 CSCD 北大核心 2019年第3期39-45,共7页
稀疏子空间聚类是近年提出的高维数据聚类框架,针对实际数据并不完全满足线性子空间模型的假设,提出k近邻约束的稀疏子空间聚类算法。该算法结合数据的子空间结构,k近邻及距离信息,在稀疏子空间模型上,添加k近邻约束项。添加的约束项符... 稀疏子空间聚类是近年提出的高维数据聚类框架,针对实际数据并不完全满足线性子空间模型的假设,提出k近邻约束的稀疏子空间聚类算法。该算法结合数据的子空间结构,k近邻及距离信息,在稀疏子空间模型上,添加k近邻约束项。添加的约束项符合距离越小,相似系数越大的直观认识且不改变系数矩阵的稀疏性。在人脸数据集Extended YaleB、ORL、AR,物体图像数据集COIL20及手写数据集USPS上的聚类实验表明提出的算法具有良好的性能。 展开更多
关键词 子空间 聚类 稀疏表示 K近邻 人脸聚类
在线阅读 下载PDF
Probabilistic Distance, Capacity Clustering Location Model of a Semi-Obnoxious Facility, a Real Case of Tafo, Kumasi, Ghana 预览
9
作者 Dominic Otoo Charles Sebil +1 位作者 Justice Amenyo Kessie Ernest Larbi 《美国运筹学期刊(英文)》 2019年第3期146-160,共15页
The collection of solid waste from third class communities in most devel-oping countries is by skip containers, however, the location of these facilities has been done arbitrary without any mathematical considerations... The collection of solid waste from third class communities in most devel-oping countries is by skip containers, however, the location of these facilities has been done arbitrary without any mathematical considerations as to the number of customers the facility is serving, the distance one has to travel to access it and thereby making some of these residences to dump their refuse in gutters, streams and even burn them. In this paper we proposed an improved probabilistic distance, capacity clustering location model which takes into consideration the weight of solid waste from a customer and the capacity of the skip container to locate the skip container to serve a required number of customers based on the capacity constraint of the container. The model was applied on a real world situation and compared with the existing practice in terms of average distance customers had to travel to access the facility. Our results gave a well shorter average travel distance by customers, gave a number of skip containers needed in an area based on their waste generation per capita. 展开更多
关键词 PROBABILISTIC FACILITY LOCATION Capacity Solid Waste SKIP Container Clustering
在线阅读 免费下载
基于密度最大值聚类的奶酪风味鉴别模型 预览
10
作者 干佳俪 谭励 +2 位作者 宁晓辉 王蓓 孙践知 《中国乳品工业》 CAS 北大核心 2019年第2期10-14,共5页
针对传统的食品风味鉴别方法具有的局限性、食品种类比较单一,并不能覆盖所有食品类别,主成分分析方法在奶酪样本上表现效果较差,无法准确快速区分不同风味奶酪,本研究基于密度最大值聚类算法提出了一种鉴别奶酪风味的模型,该模型首先... 针对传统的食品风味鉴别方法具有的局限性、食品种类比较单一,并不能覆盖所有食品类别,主成分分析方法在奶酪样本上表现效果较差,无法准确快速区分不同风味奶酪,本研究基于密度最大值聚类算法提出了一种鉴别奶酪风味的模型,该模型首先用改进的密度最大值聚类算法对风味物质进行聚类,自动获取聚类中心形成具有风味表征的特征,然后利用支持向量机算法进行分类鉴别。结果表明,通过改进的密度最大值聚类算法得到风味物质特征后,分类器模型更加稳健,均适用于切达奶酪和马苏里拉奶酪的类别鉴定,准确率均在95%以上,高于原始特征、DBSCAN聚类特征、K-means聚类特征的分类结果。 展开更多
关键词 聚类 密度最大值聚类 SVM算法 机器学习
在线阅读 下载PDF
基于VOSviewer的富血小板血浆研究热点主题分析 预览
11
作者 王海焦 黄锐娜 +3 位作者 王小俊 郑碧莉 陈佩娜 曾秀娟 《中国组织工程研究》 CAS 北大核心 2019年第18期2947-2952,共6页
背景:富血小板血浆为自体全血经离心之后所得的血小板浓缩物,含有大量生长因子及蛋白质。血小板活化后能够释放多种生长因子,加快细胞增殖及分化,能有效促进组织修复,且富血小板血浆取材方便,制备简单,被广泛应用于临床各领域应用。国... 背景:富血小板血浆为自体全血经离心之后所得的血小板浓缩物,含有大量生长因子及蛋白质。血小板活化后能够释放多种生长因子,加快细胞增殖及分化,能有效促进组织修复,且富血小板血浆取材方便,制备简单,被广泛应用于临床各领域应用。国外对于富血小板血浆的研究开展已久,并取得一定的研究成果。目的:综述并分析国外关于富血小板血浆近5年的研究进展。方法:由第一作者用计算机检索PubMed数据库,检索词为'Plasma,Platelet-Rich,Platelet Rich Plasma,Platelet-RichPlasma',检索时限为2014至2018年。利用可视化工具VOSviewer对检索所得研究论文的题录信息进行深度挖掘,从年度发文量、国家发文量以及研究主题等方面对其展开讨论,利用软件生成的知识图谱直观展示国外富血小板血浆研究的热点主题。结果与结论:检索得到相关文献38篇。结果表明,国外近5年关于富血小板血浆的研究论文发表量逐年递增,美国发文量最多,通过进行共词聚类分析可知关于富血小板血浆的研究热点主要集中在以下5个方面:动物实验、骨关节科、细胞学实验、口腔科、慢性伤口。研究结果为中国富血小板血浆领域的研究方向及热点选择提供了参考。 展开更多
关键词 富血小板血浆 聚类 VOSviewer 知识图谱 文献计量 共词聚类分析 骨关节科 口腔科 慢性伤口
在线阅读 下载PDF
半监督聚类综述 预览
12
作者 秦悦 丁世飞 《计算机科学》 CSCD 北大核心 2019年第9期15-21,共7页
半监督聚类是结合半监督学习与聚类分析而提出的新的学习方法,其在机器学习中得到了广泛的重视和应用。传统无监督聚类算法在划分数据时并不需要任何数据属性,但在实际应用中,存在少量带有独立类标签或成对约束的监督信息的数据样本,学... 半监督聚类是结合半监督学习与聚类分析而提出的新的学习方法,其在机器学习中得到了广泛的重视和应用。传统无监督聚类算法在划分数据时并不需要任何数据属性,但在实际应用中,存在少量带有独立类标签或成对约束的监督信息的数据样本,学者们致力于将这些为数不多的监督信息运用于聚类,以得到更优的聚类结果,从而提出了半监督聚类。文中主要介绍了半监督聚类的理论基础和算法思想,并对半监督聚类的最新研究进展进行了综述。首先,对半监督学习的研究现状和分类进行了概述,并将生成式半监督学习、半监督SVM、基于图的半监督学习和协同训练这4种分类方法进行了对比;其次,针对半监督学习的聚类进行了详细的描述,并对4种典型半监督聚类算法(Cop-Kmeans算法、LCop-Kmeans算法、Seeded-Kmeans算法和SC-Kmeans算法)的算法思想进行了分析和总结,同时对这4种算法的优缺点进行了评价;然后,按照基于约束的半监督聚类和基于距离的半监督聚类两种情况,分别对半监督聚类的研究现状进行了阐述;最后,探讨了半监督聚类在生物信息学、图像分割以及计算机其他领域内的应用以及未来的研究方向。文中旨在使初学者能够快速了解半监督聚类的进展,理解典型的算法思想,并在之后的实际应用中能起到一定的指导作用。 展开更多
关键词 半监督学习 聚类 成对约束 标签 半监督聚类 机器学习
在线阅读 免费下载
融合K-means和CFSFDP的聚类算法 预览
13
作者 李新运 王嘉梅 +1 位作者 张晨阳 王儒 《福建电脑》 2019年第3期1-5,共5页
在K-means算法中,初始k值和初始聚类中心对聚类结果都有影响。针对K-means算法存在的问题,提出一种K-means算法与聚类的快速搜索和发现密度峰算法结合的聚类算法(K-CFSFDP)。该算法思想:先采用CFSFDP算法得到每个数据点的ρ_i和δ_i并... 在K-means算法中,初始k值和初始聚类中心对聚类结果都有影响。针对K-means算法存在的问题,提出一种K-means算法与聚类的快速搜索和发现密度峰算法结合的聚类算法(K-CFSFDP)。该算法思想:先采用CFSFDP算法得到每个数据点的ρ_i和δ_i并将其作为数据新的特征向量,再次使用CFSFDP算法,对新的ρ_i进行升序排列,以斜率的变化自动选择聚类中心点;再运用K-means算法进行迭代聚类。该算法在UCI数据集上能够又好又快又稳定的聚类。 展开更多
关键词 聚类 斜率变化 初始聚类中心 K均值算法 快速峰值搜索算法
在线阅读 下载PDF
An Evolving Fuzzy Classifier for Induction Motor Health Condition Monitoring 预览
14
作者 Peter Luong Wilson Wang 《智能控制与自动化(英文)》 2019年第4期129-141,共13页
Induction motor (IM) is commonly used in various industrial applications. Reliable online IM health condition monitoring systems are critically needed in industries to improve operational accuracy and safety of the IM... Induction motor (IM) is commonly used in various industrial applications. Reliable online IM health condition monitoring systems are critically needed in industries to improve operational accuracy and safety of the IMs and the machinery. A new evolving algorithm is proposed to provide more decision-making transparency, as well as better classification and processing efficiency. The effectiveness of the developed intelligent classifier is examined by simulation and experimental tests. 展开更多
关键词 EVOLVING Fuzzy CLASSIFIER CLUSTERING Automatic FAULT DIAGNOSTICS INDUCTION Motors
在线阅读 免费下载
基于状态聚类的分布式模糊测试技术 预览
15
作者 邓一杰 刘克胜 +2 位作者 赵军 常超 朱凯龙 《计算机工程与设计》 北大核心 2019年第9期2428-2434,2501共8页
针对当前分布式模糊测试任务分配中,大量测试用例重复执行导致测试效率低的问题,提出基于状态聚类的分布式模糊测试任务分配策略。通过大量随机测试获得目标程序的初始状态空间;根据路径前缀将初始状态空间划分为相互独立的状态子空间,... 针对当前分布式模糊测试任务分配中,大量测试用例重复执行导致测试效率低的问题,提出基于状态聚类的分布式模糊测试任务分配策略。通过大量随机测试获得目标程序的初始状态空间;根据路径前缀将初始状态空间划分为相互独立的状态子空间,将其对应的任务分发到各测试节点;利用路径约束控制变异的方向,保证各测试节点探测的状态空间相互独立。根据该方法,设计实现一个高效的分布式模糊测试系统。分别在libtiff库和CGC测试集上进行实验,实验结果表明,该系统能够有效减少测试用例的重复执行次数,提高模糊测试效率,有机会发现更多crash。 展开更多
关键词 分布式 模糊测试 聚类 状态空间聚类 路径约束
在线阅读 下载PDF
Bayesian Non-Parametric Mixture Model with Application to Modeling Biological Markers 预览
16
作者 Mercy K. Peter Levi Mbugua Anthony Wanjoya 《数据分析和信息处理(英文)》 2019年第4期141-152,共12页
The effect of treatment on patient’s outcome can easily be determined through the impact of the treatment on biological events. Observing the treatment for patients for a certain period of time can help in determinin... The effect of treatment on patient’s outcome can easily be determined through the impact of the treatment on biological events. Observing the treatment for patients for a certain period of time can help in determining whether there is any change in the biomarker of the patient. It is important to study how the biomarker changes due to treatment and whether for different individuals located in separate centers can be clustered together since they might have different distributions. The study is motivated by a Bayesian non-parametric mixture model, which is more flexible when compared to the Bayesian Parametric models and is capable of borrowing information across different centers allowing them to be grouped together. To this end, this research modeled Biological markers taking into consideration the Surrogate markers. The study employed the nested Dirichlet process prior, which is easily peaceable on different distributions for several centers, with centers from the same Dirichlet process component clustered automatically together. The study sampled from the posterior by use of Markov chain Monte carol algorithm. The model is illustrated using a simulation study to see how it performs on simulated data. Clearly, from the simulation study it was clear that, the model was capable of clustering data into different clusters. 展开更多
关键词 BAYESIAN NON-PARAMETRIC Nested DIRICHLET PROCESS BIOMARKER Clustering Surrogate MARKERS DIRICHLET PROCESS Markov Chain Monte Carlo
在线阅读 免费下载
改进的基于词集距离的FTC聚类算法 预览
17
作者 王秀慧 赵治军 《计算机工程与设计》 北大核心 2019年第11期3175-3179,共5页
针对FTC在实现聚类的过程中忽略了文本词语有序性这一特征,结合算法时间复杂度,提出基于词集距离的WSD-FTC文本聚类算法。在采用FP-Growth挖掘频繁项集的过程中通过限制词集距离得到质量更高、数量更少的频繁项集,以此作为聚类依据。通... 针对FTC在实现聚类的过程中忽略了文本词语有序性这一特征,结合算法时间复杂度,提出基于词集距离的WSD-FTC文本聚类算法。在采用FP-Growth挖掘频繁项集的过程中通过限制词集距离得到质量更高、数量更少的频繁项集,以此作为聚类依据。通过定义簇间相似系数保证多主题文本归入不同簇中,实现一定程度的软聚类。实验结果表明,WSD-FTC具有更好的聚类效果及更优的时间开销。 展开更多
关键词 频繁项集 聚类 词集距离 簇间相似系数 软聚类
在线阅读 下载PDF
基于马尔科夫的聚类算法仿真分析 预览
18
作者 王振宇 《信息技术》 2019年第5期58-60,共3页
针对传统k均值聚类算法易受初始条件影响的问题,文中在已有聚类算法的基础上提出了一个新型的图型聚类算法:马尔科夫(MCL)聚类算法。通过MATLAB仿真软件对空手道俱乐部数据用马尔科夫聚类算法进行仿真分析,得出聚类结果,并同时分析参数... 针对传统k均值聚类算法易受初始条件影响的问题,文中在已有聚类算法的基础上提出了一个新型的图型聚类算法:马尔科夫(MCL)聚类算法。通过MATLAB仿真软件对空手道俱乐部数据用马尔科夫聚类算法进行仿真分析,得出聚类结果,并同时分析参数对算法性能的影响。实验结果表明,马尔科夫聚类算法可以应用于对图的聚类中,但同时也会受到参数的影响。 展开更多
关键词 聚类 马尔科夫算法 K均值
在线阅读 下载PDF
基于Spark平台的K-means算法的设计与优化 预览
19
作者 王义武 杨余旺 +2 位作者 于天鹏 沈兴鑫 李猛坤 《计算机技术与发展》 2019年第3期72-76,共5页
聚类中心需要手动设置是K-means算法最大的问题,而通常情况是并不能确定现实中数据的分类情况。为了解决这一问题,提出了一种新的OCC K-means算法。不同于传统算法以随机选择的方式产生聚类中心,该算法进行必要的预处理,利用UPGMA和最... 聚类中心需要手动设置是K-means算法最大的问题,而通常情况是并不能确定现实中数据的分类情况。为了解决这一问题,提出了一种新的OCC K-means算法。不同于传统算法以随机选择的方式产生聚类中心,该算法进行必要的预处理,利用UPGMA和最大最小距离算法对数据点进行筛选,得到可以反映数据分布特征的点,并作为初始的聚类中心,以提高聚类的精度。从两次的实验结果可以对比出,在不同的数据集上,改进算法在衡量聚类效果的准确率、召回率、F-测量值上的表现要优于传统K-means算法。这是因为OCC算法选择的中心点来自于不同的且数据密集的区域,并在筛选的过程中排除了噪声数据、边缘数据对实验的干扰;同时为了契合大数据发展潮流,使用Scala语言在Spark平台进行了并行化实现,提高了算法处理海量数据的能力,并通过实验指标验证了算法具有良好的并行化能力。 展开更多
关键词 聚类 聚类中心 K-MEANS 最大最小距离算法 非加权组平均法
在线阅读 下载PDF
自动确定聚类中心的移动时间势能聚类算法 预览
20
作者 陆慎涛 葛洪伟 周竞 《南京大学学报:自然科学版》 CAS CSCD 北大核心 2019年第1期143-153,共11页
移动时间层次聚类(Travel-Time based Hierarchical Clustering,TTHC)是一种新的势能聚类算法,尽管具有较好的聚类效果,但是该算法需要人工设定聚类数目,而且在分配样本的时候仅根据相似度,忽略了距离和势能的影响.针对以上问题,提出一... 移动时间层次聚类(Travel-Time based Hierarchical Clustering,TTHC)是一种新的势能聚类算法,尽管具有较好的聚类效果,但是该算法需要人工设定聚类数目,而且在分配样本的时候仅根据相似度,忽略了距离和势能的影响.针对以上问题,提出一种自动确定聚类中心的移动时间势能聚类算法.首先计算每个数据点的势能和相似度,然后根据相似度确定数据点的父节点,得到数据点与父节点的距离;然后,根据数据点与父节点的相似度、距离和数据点的势能得到综合考量值,根据综合考量值自动确定聚类中心;最后,将剩余数据点分配到比其势能小且与其相似度最大的数据点所属类簇,得到聚类结果.将新算法与TTHC算法进行比较,在人工数据集和真实数据集上的实验结果表明,新算法不仅能够自动确定聚类数目,而且采用了更优的分配机制,可以产生更好的聚类结果. 展开更多
关键词 聚类 TTHC 移动时间 自动确定聚类数目
在线阅读 免费下载
上一页 1 2 250 下一页 到第
使用帮助 返回顶部 意见反馈