基于GT4的聚类分析算法研究-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

1.引言

计算机网络技术的普及与应用给人们的生活带来了翻天覆地的变化，同时在网络上产生了大量杂乱无章的数据。而网格技术、Web技术的发展，为人们从分布的网络资源中寻找有价值的信息提供了新的技术支持，同时也产生了许多基于网格的数据挖掘系统。而数据挖掘算法又是决定一个数据挖掘系统性能的主要衡量指标。任何软件系统的设计都离不开算法，数据挖掘技术的执行效率也与数据挖掘算法有关，随着数据库技术与数据挖掘技术的成熟与发展，像分类、聚类、决策树、关联等等数据挖掘算法已相当成熟，可以研究借鉴现有数据挖掘方法、数据挖掘模式、数据挖掘流程，建立一个基于网格的数据挖掘系统。笔者以众多数据挖掘算法中的聚类分析算法为例，介绍基于GT4(Globus Tookit 4.0的简称，GT4的核心开发工具包(Java Web Service Core))的数据挖掘算法的设计过程。

聚类分析(Clustering Analysis)是一个应用比较广泛的数据挖掘算法，算法的理论研究与实践应用都已经很成熟，把这一成熟的理论应用于基于网格的分布式系统中，会大大提高数据挖掘的效率。本文主要研究如何将聚类分析的CURE(Cluster Using Representation)算法和K-平均方法算法应用于基于GT4数据挖掘系统中。

2.系统结构设计

基于GT4数据挖掘系统的数据源是分布式数据源，分布式数据源是指在物理上分布而逻辑上集中的数据源系统。在该系统中，处在这个网格中的每台计算机就是这个网格的一个节点，称之为网格节点。在众多的节点中，要有一个网格节点来控制和管理其他的节点，这个节点就叫做网格中心控制节点，决策支持都是由网格中心控制节点完成的。如果要完成某个数据挖掘任务，则可以由空闲的网格节点先按挖掘需求来完成本节点的挖掘任务，再由网格中心控制节点来汇总每个节点的数据挖掘情况。局部网格节点管理的信息具有局限性，涉及的范围较小，主要完成单个节点数据的管理，对局部的数据挖掘结果进行汇总分析，但是这些局部节点的数据与全局节点的数据又是有一定关联的。根据以上的分析可知，网格平台下的数据挖掘任务由全局数据挖掘与局部数据挖掘共同完成。

3.算法的Web Service设计

3.1 全局聚类算法的Web Service设计

网格环境下的全局控制网格节点与局部网格节点间的关系我们可以理解为上下层的关系，这样就可以借鉴基于层次的聚类分析算法，按照层次的自底向上的聚类方式，把全局控制节点当成是层次聚类的顶层。本课题全局聚类算法借鉴传统的利用代表点聚类算法CURE.

CURE算法将层次方法与划分方法结合到一起，选用有代表性的、固定数目的空间点来表示一个聚类。算法在开始时，每个点都是一个簇，然后将距离最近的簇结合，一直到簇的个数为要求的K.首先把每个数据点即局部网格节点看成一个聚类，然后再以一个特定的收缩因子向中心收缩它们。

CURE算法的主要执行步骤如下：

(1)从数据源样本对象中随机抽取样本集，生成一个样本集合S;

(2)将样本集合S分割为一组划分，每个划分大小为S/p;

(3)对每个划分部分进行局部聚类;

(4)通过随机采样剔除聚类增长太慢的异常数据;

(5)对局部聚类进行聚类，落在每个新形成的聚类中的代表性点，则根据用户定义的收缩因子收缩或移向聚类中心;

(6)用相应的标记对聚类中的数据标上聚类号。

有了数据挖掘算法，就可以完成数据挖掘任务了。全局聚类算法的主要功能是响应用户的数据挖掘请求，将对应的请求发送给局部网格节点，将局部网格节点的挖掘结果整理输出。全局聚类算法Web Service资源的结构包括算法Web Service接口、算法资源属性文档、算法功能实现和算法功能发布四个部分。

利用传统的聚类算法完成全局的数据的并行挖掘最重要的一步就是将全局聚类算法部署到GT4中，完成全局聚类算法的Web Service设计要经过过以下几步：

第一步：用WSDL(Web Service描述语言，是Web Service提供的XLM语言)来描述数据挖掘服务接口，该服务接口可以用Java来定义，利用Java-to-WSDL工具把Java定义的接口转为WSDL文件。

第二步：用Java编写全局聚类算法(CURE)代码;

第三步：用WSDD配置文件和JNDI(GT4自带文件)部署文件;

第四步：用Ant工具打包上面的所有文件，生成一个GAR文件;

第五步：向Web Service容器部署全局数据挖掘服务。

3.2 局部聚类算法的Web Service设计

局部聚类算法的主要功能是完成局部网格节点的数据挖掘任务，并把数据挖掘结果上传到全局控制节点。局部网格节点的数据挖掘任务与传统的单机数据挖掘任务类似，本课题局部聚类算法使用传统的聚类算法K-平均方法，以K为参数，把N个对象分为K个簇，簇内具有较高的相似度，而簇间的相似度较低[34].本论文的数据挖掘任务主要是由局部网格节点实现的，下面就详细的介绍K-平均算法的主要执行过程如下：

(1)从数据集中任意选择K个对象作为各个簇的初始中心。

(2)根据现有的簇中心情况，利用距离公式计算其他对象到各个簇中心的距离。(可选的距离公式有：欧几里、行德公式、距离公式、曼哈坦距离公式、明考斯基距离公式)。

(3)根据所得各个对象的距离值，将对象分配给距离最近的中心所对应的簇。

(4)重新生成各个簇的中心。

(5)判断是否收敛。如果收敛，即簇不在发生变化，那么停止划分，否则，重复(2)到(5)。

K-平均算法是一个经典的聚类算法，将K-平均算法部署到GT4中，完成局部聚类算法的Web Service设计，部署方法与全局算法相似。

4.结论

基于GT4的数据挖掘系统中的数据挖掘服务资源有网格的中心控制节点(即全局节点)进行统一的管理，在局部网格节点挖掘过程中，根据其处理能力分配最佳的数据集给局部节点，从而使整个系统的计算负载相对均衡。其数据挖掘系统的规模可随着服务的多少动态伸缩。当系统要增加新的局部挖掘节点时，只需部署局部Web Service资源即可。将网格应用到分布式数据挖掘系统中，建立一个基于网格的数据挖掘系统，必将使其在各个领域都得到广泛的应用。

关键字：GT4 聚类分析算法研究编辑：探路者引用地址：基于GT4的聚类分析算法研究

上一篇：一种高速实时数据采集系统的设计方案
下一篇：七大因素影响锂离子电池循环性能

推荐阅读最新更新时间：2023-10-12 22:36

自适应数字预失真放大器的算法研究

　　 1 引言　　在基于查找表的自适应预失真放大器中，最小均方LMS(1east-mean-square)算法广泛采用文献所提出的观点。初始收敛速度、时变系统跟踪能力及稳态失调是衡量自适应滤波算法优劣的最重要技术指标。LMS算法的缺点是收敛速度慢。为了提高LMS算法的收敛速度，文献提出改进的两个方法：输入信号去相关和尽可能增大步长参数。对于输入信号去相关方面，研究了分块LMS算法，DCT-LMS算法，归一化LMS算法。而增大步长参数方面，发现子带自适应LMS算法，SVSLMS算法，改进的SVSLMS算法。根据以前的研究：固定步长的自适应滤波算法在收敛速度、时变系统跟踪速度与收敛精度方面对算法步长因子的要求是相互矛盾的。

[模拟电子]

基于图象的条形码识别的算法研究及设计

摘要：文章以条码技术、图象处理技术以及计算机软件技术为基础，设计出比较完善可靠的条形码识别算法。文中着重介绍了条形码识别的算法，并且对三种情况下即：理想的、小于五度倾斜的、稍微模糊的条形码进行了识别测试并给出改进思路。关键词：图像；条形码；算法 0 引言本设计的目的是在AOI(Automatic Optical Inspection，自动光学检测)设备提供的PCB板图片中对PCB板的条形码信息进行识别，应用于电子通讯产品的生产线上，进行PCB板的错误检测。AOI通过摄像头自动扫描PCB、采集图像、测试的焊点与数据库中的合格参数进行比较，经过图像处理，检查出PCB上的缺陷，并通过显示器把缺陷显示、标识出来，供维修人员修正。P

[工业控制]

基于图象的条形码识别的<font color='red'>算法研究</font>及设计

COFDM传输系统中符号定时同步的算法研究

摘要：介绍了COFDM传输系统中符号定时同步的几种算法。通过仿真，发现用一般的ML算法估计得到的各符号起始位置间隔波动比较大。为此，提出了一种新的估计算法，即利用门限估计的方法。结果表明，这种算法估计出来的各种符号起始位置间隔波动较小，比较稳定。关键词：符号定时同步 ML算法门限估计 MFDM（正交频分复用 Orthogonal Frequency Division Multiplexing）技术在对抗多径衰落和脉冲寄生干扰等方面是一个有效的传输方法。通过在两个符号块之间插入保护间隔，OFDM系统可以很好地避免符号间串扰ISI（Intersymbol inte

[应用]

基于MSP430F149电机保护算法研究

目前，我国高压电动机的保护主要有机电式和集成电路两种，但都存在着诸多弊病，不能很好地保护电动机。其中，异步电动机的机电式保护，主要以电流增大作为判据，保护原理粗略，对断相等严重不对称故障，由于一般不出现显著的电流增大，从而使保护装置难以及时动作，造成事故扩大；集成电路式保护虽在保护原理上有所改善，但其保护特性一般无法与电动机热曲线实现较好配合，常发生拒动或误动，严重的甚至烧毁电动机。因此，研究电机保护算法具有重要的意义。 1　电动机故障分析电动机的故障形式可分为对称和不对称两类。对称故障包括过载、堵转和三相短路等，这类故障对电动机的损坏主要是热效应和机械应力，使绕组发热甚至损坏。其主要特征是三相仍基本对称但

[单片机]

基于MSP430F149电机保护<font color='red'>算法研究</font>

基于非线性控制系统优化的遗传算法研究

摘要：针对非线性控制系统参数优化问题，结合非线性控制系统理论、最优化理论及遗传算法，提出了一种新的仿真优化方法，该方法利用遗传算法来求解非线性控制系统参数优化问题。关键词：遗传算法参数优化方法非线性控制系统控制系统参数优化方法已有许多文献作了论述，这些方法大多是基于估计目标函数对优化变量的梯度信息进行优化。而对非线性控制系统参数优化问题，由于控制系统具有非线性特性，基于估计目标函数对优化变量的梯度信息进行优化的方法就显得无能为力了。遗传算法是最新兴起的智能计算技术，是一种借鉴生物界自然选择和自然遗传机制的高度并行、随机自适应搜索算法，具有能快速有

[应用]

基于计算机视觉的自动驾驶算法研究综述

　　近年来，随着人工智能技术的迅速发展，传统汽车行业与信息技术结合，在汽车自动驾驶技术方面的研究取得了长足进步，业内很多大公司都在此领域投入巨资进行研发，如国外的谷歌、丰田，国内的百度、比亚迪等公司都推出了自动驾驶汽车，且实验结果令人满意：　　谷歌的自动驾驶汽车已经安全行驶超过 14 万英里；　　丰田则宣布旗下自动驾驶系统将于 2020 正式量产；　　百度在 2015 年底宣布，其自动驾驶汽车计划三年商用五年量产，比亚迪已与百度深化合作，共同研发无人驾驶汽车。　　可以预见，在不远的将来，随着技术不断发展完善，自动驾驶技术将进入实用阶段，普及到千家万户，人们可以自由出行而无需担心人为驾驶事故，如无证驾驶、超速、疲

[嵌入式]

列车折关检测系统分析及数据处理算法研究

1 引言列车在运行过程中，若发生折角塞门误关(简称折关，主要由人为故意破坏非正常关闭折角塞门或者折角塞门由于长久工作而自然损坏两方面原因造成)，在列车需要制动时，使空气制动功能受到影响，制动力下降，严重时将造成列车冒进、追尾等事故。因此，列车“折关”是铁路安全运行中存在的重要问题之一。铁道部1988年已将防止折角塞门关闭造成事故问题列为铁路安全的重点攻关项目。目前对列车折关检测主要是根据对列车管内气压数据的采样，然后与正常情况下的数据对比计算获得折关与否以及折关的具体位置。基于此原理研发成的检测装置大致有三类： (1)列车尾部安全装置，(2)列车折关检测报警记录装置(列车管贯通状态检测仪)， (3)列车制动主管漏泄检

[嵌入式]

基于GT4的聚类分析算法研究

1.引言计算机网络技术的普及与应用给人们的生活带来了翻天覆地的变化，同时在网络上产生了大量杂乱无章的数据。而网格技术、Web技术的发展，为人们从分布的网络资源中寻找有价值的信息提供了新的技术支持，同时也产生了许多基于网格的数据挖掘系统。而数据挖掘算法又是决定一个数据挖掘系统性能的主要衡量指标。任何软件系统的设计都离不开算法，数据挖掘技术的执行效率也与数据挖掘算法有关，随着数据库技术与数据挖掘技术的成熟与发展，像分类、聚类、决策树、关联等等数据挖掘算法已相当成熟，可以研究借鉴现有数据挖掘方法、数据挖掘模式、数据挖掘流程，建立一个基于网格的数据挖掘系统。笔者以众多数据挖掘算法中的聚类分析算法为例，介绍基于GT4(Globus

[电源管理]

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■2024 瑞萨电子MCU/MPU工业技术研讨会——深圳、上海站，火热报名中

■罗姆有奖直播 | 重点解析双极型晶体管的实用选型方法和使用方法

■STM32N6终于要发布了，ST首款带有NPU的MCU到底怎么样，欢迎小伙们来STM32全球线上峰会寻找答案！

■免费下载 | 安森美电动汽车充电白皮书，看碳化硅如何缓解“里程焦虑”！

Vishay线上图书馆

白皮书技术文章视频热门推荐