您好,欢迎来到抵帆知识网。
搜索
您的当前位置:首页基于K均值算法的数据聚类和图像分割研究

基于K均值算法的数据聚类和图像分割研究

来源:抵帆知识网
第29卷第2期 2014年4月 平顶山学院学报 Journal of Pingdingshan University Vo1.29 No.2 Apr.2014 基于K均值算法的数据聚类和图像分割研究 王军敏,李艳 (平顶山学院电气信息工程学院,河南平顸山467099) 摘 要:K均值算法利用K个聚类的均值作为聚类中心,通过对比样本到各聚类中心的距离,将样本划 分到距离最近的聚类中,从而实现样本的聚类.分析了K均值算法的基本原理和实现步骤,并将其应用于数据聚 类和图像分割,取得了较好的聚类效果.最后,针对K均值算法的不足之处,提出了改进措施,提高了K均值算 法的聚类性能. 关键词:K均值算法;数据聚类;图像分割 文献标识码:A 文章编号:1673—1670(2014)02—0043—03 中图分类号:TP391 0引言 表明聚类效果越好,类间区分度越大,类内数据相 似度越高,所以,当代价函数',最小时,K均值算法 收敛,实现了对数据集的K个聚类划分. 聚类是将数据集按照数据的相似性分成多个 类的过程,相似度较高的样本归为一类,相似度较 低或不相似的样本则划归到不同的类.聚类分析作 为一种非监督学习方法,可用于数据挖掘、模式识 K均值算法实现聚类的具体步骤 为: 1)输入待分类的数据集X= 和分类数K. , ,…, } 别、机器视觉等领域,而K均值算法就是一种简单 高效,被广泛使用的聚类算法,在数据聚类、图像分 割中具有重要应用. 1 K均值算法的基本原理 …2)初始化:从数据集 中选取 个元素,作为 类{c。,c ,…, }的初始聚类中心{ 。‘们, :‘们, , K‘。’},其中, 表示第 类ci在第11,次迭代 后新的聚类中心. 3)将数据归类:根据欧式距离,依次计算每个 数据到各类中心的距离,并比较这些距离的大小, 按最小距离准则将各数据划分到离它最近的那个 聚类中心所在的类.例如,数据 到各类中心的欧 1967年MacQueen首次提出了K均值算法(K —means算法)…,很多聚类任务都选择该聚类算 法,它常采用误差平方和函数作为聚类准则函数, 即代价函数.设数据集X={ , :,…, },划分为 氏距离为d(x , )=IIx 一 =l,2,…, ,其 K类,则代价函数为.,= 【∑ 一 々 Gi ,其中, 中lI.1J表示范数运算.对E匕这K个距离,若d( , )最小,表明数据 距离C 类的中心 最近,则 是第i类ci的聚类中心,数据 属于第 类ci,即 ∈C .聚类过程就是寻找最佳聚类中心 , =1, 将数据 划归到聚类c 中. 4)更新聚类中心:重新计算K个聚类的中心 ‘ 12,…,K,使代价函数 为最小值的过程 ].要计算 代价函数-,,可先分别计算每一类中各数据到该类 ‘ , 2,…, K‘ },其中, ‘ = y xm表示 n-- 1中心的距离平方和,例如∑ 一 lJ 表示第i类 Eq 各数据到该类中心I.t 的距离平方和.然后,将K类 第 次划分后聚类C 的中心,/7, 为当前C 中数据的 个数.在这一步中,因为要计算K类的均值作为聚 类中心,所以称为K均值算法. 5)判断分类是否结束:若第 +1次划分后的 的距离平方和相加,即可得到代价函数 .,越小, 收稿日期:2014一O1—04 作者简介:王军敏(1982一),男,河南省叶县人,硕士,平顶山学院电气信息工程学院讲师,主要研究方向:信号检测与处理 第2期 王军敏,李艳:基于K均值算法的数据聚类和图像分割研究 ・45・ 心在几个分布密集区域的中心,其周围的点越容易 分到最近的中心点,聚类收敛越快,所需迭代次数 布密度高的局部区域中心点作为初始聚类中心. 通过对聚类数目K和初始聚类中心选择的改 越少.以二维数据为例,图4为某数据集的分布情 况,数据主要分布在A, 点周围,若要分为两类, 则选取A,B两点为初始聚类中心时,其周围的点 到该初始中心的距离区分越明显,越容易收敛.相 反,若选择C,D两点为初始中心,则收敛速度慢. 进,可进一步提高K均值算法的自适应性,更好地 发挥K均值算法在数据聚类和图像分割中的应 用. 参考文献: [1]赵丽.全局K一均值聚类算法研究与改进[D].西安: 西安电子科技大学,2013. [2]粱烨炜.K一均值聚类算法的改进及其应用[D].长沙: 湖南大学,2012. [3]周俊,刘丽川,杨继平.基于K一均值聚类与小波分 析的声发射信号去噪[J].石油化工高等学校学报, 2013,26(3):69—73. 图4二维数据的聚类中心选择 [4]陈坤,马燕,李顺宝.融合直方图阈值和K一均值 根据随机信号的统计特性,聚类数据应主要分 布在所有数据的均值附近,标准差表明数据分布偏 的彩色图像分割方法[J].计算机工程与应用,2013,49 (4):170—173. 离均值的程度.设所有数据的均值为 ,标准差为 or,则数据应主要分布在( 一or, + )之间.所以, 可利用数据的均值和标准差统计特性,选择样本分 [5]张文君.基于均值一标准差的K均值初始聚类中心选 取算法[J].遥感学报,2006,10(5):715-721. Study of Data Clustering and Image Segmentation Based on K——means Algorithm WANG Junmin,LI Yan (School of Electircal and Information Engineering,Pingdingshan University,Pingdingshan,Henan 467099,China) Abstract:K—means algorithm uses the means of K cluster as the cluster centers.By comparing the distance between the sample to all cluster centers,the sample is divided into the nearest cluster SO as to realize the sample clustering.The basic principles and steps of K—means algorithm are analyzed,and its application in data cluste- ring and image segmentation is given,which achieved good clustering results.Finally,aiming at the shortcomings of K—means algorithm,the improvement measures are proposed,which can improve the clustering performance of K—means algorithm. Key words:K—means algorithm;data clustering;image segmentation 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- dfix.cn 版权所有 湘ICP备2024080961号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务