优胜从选择开始,我们是您最好的选择!—— 中州期刊联盟(新乡市博翰文化传媒有限公司)
0373-5939925
2851259250@qq.com
我要检测 我要投稿 合法期刊查询
您的位置:网站首页 > 优秀论文 > 正文

数据挖掘技术综述

作者:尤楠来源:http://www.zzqkw.com日期:2013-01-31人气:1075

数据挖掘(DM)是一门新兴的交叉学科,也是现代科学技术相互渗透的必然结果,其基本目标就是从大量的数据中提取隐藏的、潜在的和有用的知识和信息。这一技术自20世纪末提出以来,引起了许专家学者的广泛关注,并应用到金融业、零售业、医疗保健和政府决策等各个领域,取得了良好的社会效益和经济效益,具有广阔的开发前景和应用前景。 从数据挖掘的发展过程来看,其应用主要经历了以下四个过程 一、数据挖掘模型与算法 具体来讲,现在的数据挖掘技术主要涉及神经网络、决策树、遗传算法、数理统计分析、关联规则和聚类分析等方法和学科 (一)神经网络 神经网络为解决大复杂度问题提供了一种相对来说比较有效的简单方法,它是模仿人脑神经网络的结构和某些工作机制而建立的一种非线形预测模型,经过学习进行模式识别的。其工作机理是通过学习改变神经元之间的连接强度。神经网络有前向神经网络、反馈神经网络、自组织神经网络等,在神经网络中,由权重和网络的拓扑结构决定了它所能识别的模式类型。 (二)决策树 决策树学习着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。所以,从根到叶结点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则。基于决策树的学习算法的一个最大的优点就是它在学习过程中不需要使用者了解很多背景知识(这也同时是它最大的缺点),只要训练例子能够用属性-结论式的方式表达出来,就能使用该算法来学习。 (三)遗传算法 遗传算法是一种优化技术,是模拟生物进化过程的算法。基于进化理论,并采用遗传结合、遗传变异以及自然选择等设计方法。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。在数据挖掘中,它还可以用于评估其它算法的适合度,在处理组合优化问题方面有一定的优势,可用于聚类分析等。遗传算法的最大特点在于演算简单,但其用于数据挖掘也存在一些问题:算法较复杂,还有收敛于局部极小的过早收敛等难题未得到彻底解决。 (四)数理统计分析 这类技术建立在传统的数理统计的基础上。在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用判别分析、因子分析、相关分析、多元回归分析及偏最小二乘回归方法等。传统统计分析可用于分类挖掘和聚类挖掘,SAS,SPSS和BMDP是目前国际上最具影响力的3大统计分析软件。 (五)聚类分析 聚类分析是多元统计分析方法之一,也是统计模式识别中非监督模式识别的一个重要分支。在统计分析和模式识别领域,聚类已经被广泛研究了多年,提出了大量的理论和方法,取得了丰硕的研究成果。 聚类的研究主要包括以下几方面: (1)聚类有效性问题。聚类有效性问题的研究是围绕硬c-均值聚类算法和模糊c-均值聚类算法进行的,实际应用中,定义聚类有效性函数是最常用的方法。目前对聚类有效性问题的研究已延伸到非球状数据分布的数据集中,如线状和壳状数据集。 (2)迭代优化聚类的初始化问题。现有的聚类初始化研究大致分为三种途径:随机采样法,距离优化法以及密度估计法。目前各种初始化方法各有优缺点,而且许多现有的初始化方法本身就是一种聚类方法或是多种聚类方法的综合,因而优化过程中也会出现初始化的问题。 (3)分类属性数据聚类。围绕分类数据类型和混合数据类型聚类问题,专家学者提出了很多新的概念和方法。其中,研究较为深入的是概念和层次聚类算法。由于概念聚类和层次聚类计算复杂,随着新的分类属性数据的相似度和距离函数的提出,面向分类属性数据的基于划分的聚类算法逐渐也应用于数据挖掘中。 二、数据挖掘未来的发展方向 预计在未来的一段时间内,数据挖掘的研究还会深入下去,研究焦点可能会集中到以下几个方面: (一)数据挖掘算法的效率和可扩展性 目前数据库数据量大,维数高,使得数据挖掘的搜索空间增大,发现知识的盲目性提高。如何充分利用领域的知识,剔除与发现任务无关的数据,有效地降低问题的维数,设计出高效率的知识发现算法是下一步发展的重点。 (二)数据的时序性 在应用领域的数据库中,数据在不断地更新,随着时间的推移,原先发现的知识将不再有用,我们需要随时间逐步修正发现模式来指导新的发现过程。 (三)互联网上知识的发现 Www正日益普及,从中可以找到很多新的知识,已有一些资源发现工具来发现含有关键字的文本,但对在www上发现知识的研究不多。人们现在面临的问题是如何从复杂的数据(例如多媒体数据)中提取有用的信息,对多层数据库的维护,如何处理数据的异类性和自主性等等。  

网络客服QQ: 沈编辑

投诉建议:0373-5939925    投诉建议QQ:

招聘合作:2851259250@qq.com (如您是期刊主编、文章高手,可通过邮件合作)

地址:河南省新乡市金穗大道东段266号中州期刊联盟 ICP备案号:豫ICP备2020036848

【免责声明】:中州期刊联盟所提供的信息资源如有侵权、违规,请及时告知。

版权所有:中州期刊联盟(新乡市博翰文化传媒有限公司)

关注”中州期刊联盟”公众号
了解论文写作全系列课程

核心期刊为何难发?

论文发表总嫌贵?

职院单位发核心?

扫描关注公众号

论文发表不再有疑惑

论文写作全系列课程

扫码了解更多

轻松写核心期刊论文

在线留言