优胜从选择开始,我们是您最好的选择!—— 中州期刊联盟(新乡市博翰文化传媒有限公司)
0373-5939925
2851259250@qq.com
我要检测 我要投稿 合法期刊查询
您的位置:网站首页 > 优秀论文 > 科技论文 > 正文

面向大数据的高维数据挖掘技术研究

作者:雷宇来源:《企业科技与发展》日期:2019-08-29人气:1826

1  大数据的发展挑战

1.1  在技术架构形式上

现阶段,数据库正在全球化,立足于该发展模式,分布式模式需要得以创建,除了需要庞大机器之外,还需要有效处理庞大的数据信息。但是面对大数据时代,针对飞速激增的数据量,传统数据分析已经不能满足需求,在以下3个方面得到体现:

1.1.1  数据处理的时效性

面对大数据不断推行,为了符合现阶段数据处理实际需求,数据实现在线处理。在此基础上,无论是数据处理选择,还是数据处理模式,都不断改变,处理具有实时性,除了能够实现流处理之外,批处理也成功实现。立足于大数据实时性处理,无论是业务需求,还是根据应用,都逐步发生改变。

1.1.2  实现了动态变化环境中的索引形式

在索引形式的基础上,关系数据库查询速度将不断提升,可是使用传统数据管理模式,索引形式并不可以产生变化,在此基础上,无论是更新效率,还是创建方式,都不断形成。针对大数据信息的变化特点,除了需要具备设计简洁的特点,创建索引方式还需要具有高效的特点,由此针对大数据变化,无论是数据信息的需求调整,还是数据信息的处理,都可以良好使用。所以说,针对大数据变化,全新的索引形式需要成功设计,在此基础上确保查询工作顺利实施。

1.1.3  先验知识的缺失

立足于传统数据分析结构,在关系型保存模式基础上,无论是出现先验知识,还是隐藏内部关系,都早已出现。比如说,对信息属性进行分析过程中,可能存在的取值范围需要确定,并且在实际分析之前,数据的了解就已经形成。针对大数据分析,无论是非结构化数据,还是半结构化数据,都需要创建类似数据,并且正式关系式需要实现。但是数据流的产生是不间断进行的,所以说针对实时发生的数据,先验知识并不会创建完善,在此情况下,对无先验知识,需要及时发现并及时处置。

2  高维数据挖掘中的问题

2.1  高维数据简介

在大数据库飞速增加的基础上,维数同样在急剧扩大,一旦增长到瓶颈出,数据处理将难以进行,人们将该数据就叫做高维数据。相对于传统数据挖掘而言,除了具有复杂性的特点之外,高维数据还具有多信息量性,由此成为数据挖掘的核心所在。

2.2  高维数据的特点

(1)稀疏性:实质就是数据库相对庞大时,即便高维数据非常多,但是能够符合使用要求的,相对较少。

(2)维度灾难:挖掘高维数据的过程中,往往存在较多的属性变化,在此情况下,索引结构性能将不断降低,特别是无论最近邻,还是最远邻,和查询点的距离往往都一样,由此最近邻往往是没有意义的,为此数据挖掘难度将急剧增加。

2.3  高维数据对于数据挖掘产生的影响

结合大数据特征,实际挖掘数据过程中,使用最近邻法,在庞大数据中查询效率将急剧提升,最近邻法往往依赖索引结构进行的,可是针对高维数据存在维度灾难的特点,最近邻查询往往被索引结构支持度将不断降低,甚至是使得最近邻查询无法有效进行。

无论是进行高维数据的分类聚类分析,还是进行高维数据的异常检测,受制于索引结构的制约,效果将大打折扣,甚至是失去效果,由此无论是异常检测算法还是聚类分析性能将不断降低;除此之外,针对同样的数据点距离,使得分类聚类概念意义不断消失,针对高危空间数据具备的稀疏性,任何数据点都能够视为异常点,此时针对高维数据异常检测将变得困难重重。

2.4  高维数据挖掘的研究方向

(1)距离函数或相似性度量函数:无论是重新定义距离函数,还是重新定义相似性度量函数,都能够成功避免“维度灾难”的制约。

(2)选维和降维:在不断降低高维数据维度的基础上,使得其成功形成低维数据,由此进行低维数据的数据挖掘。同时该方法最为人们所接受。

(3)高效的聚类算法和异常检测算法:为成功解决算法效率不高的难题,存在三个方面的措施:第一,设计性能更好的索引结构;第二,增量算法;第三,并行算法。

3  大数据的高维数据挖掘技术

3.1  大数据储存的三维矩阵模型

针对不一样来源的数据,往往可以选取不一样的数据处理方式。比如说,通常情况下,在分解数据种类的基础上,能够将调研数据分为三类:第一,单选;第二,多选;第三,排序。无论是传统数据记录,还是传统数据分析过程中,都是立足于同样数据库开展的,由此增加维度的不一样,无论是数据分析,还是数据处理,都将受到制约。

所以说,针对大数据时代,数据模型的创建除了需要具有内容多的特征,还需要存在极强的通用性。同样以上文例子为例,在数据调研过程中,无论是单选,还是多选,都能够依据向量来有效表达,对应的题目排序可以利用矩阵来表现,在社会网络数据的基础上进行,并且结合关键性类别来实际代表选题方式,最后模型转换则是建立在三维矩阵和传统数据库基础之上的(如图1),处理关键数据,由此不一样的空间形式将存在空间维度之上,此时三维矩阵将有全部数据来源构成,进行有效组合之后,形成立体式模型,如图2。

3.2  关联规则的三维矩阵挖掘

实际进行大数据挖掘过程中,关联规则挖掘是最受人们青睐的。无论是不一样的属性,还是项目关系,都是没有办法隐藏,同时也是没有办法预知的,只有在统计方法和数据库的基础上加以实现。现阶段,关联规则挖掘技术凭借其良好的性能,成为了使用广泛的技术之一,在关联规则挖掘过程中存在以下核心要素:

(1)置信度:主要用于度量衡量强度以及准确性;

(2)支持度:主要用于衡量度量重要性。

在日常生活和工作中,在关联规则挖掘过程中,只有上诉核心因素数值最小的时候,支持度同样也对应最小值,由此才得以成功处于关联规则内。假如需要使得关联规则可靠性最低,此时置信度需要确保为最低。

想要使得多维数据成功在空间中表现,立足于空间特种,能够在多维储存模型的基础上成功表现,由此无论是数据层次还是数据语言,都能够有效表达。比如说:在检测海洋数据过程中,气象环境除了风力之外,还有降水等等;海底环境处理重力之外,还有水深等等;水体环境除了有水温计盐度之外,还有潮流和水声,因素众多且相互交织,由此多维数据得以形成。在模型建立的基础上,使得多维数据能够在空间成功表达,使得海洋多样化的数据结构得以呈现。

3.3  基于超图的聚类算法

在原始数据相互关系的基础上,结合超图数据集,使得图形划分方法不断得到优化,此为超图聚类算法。在三维矩阵之中,利用分割算法进行图像划分,使用最为广泛的即为HMETIS算法,存在如下步骤:

(1)首先是粗化阶段,在最小超图的基础上,结合推进超图,进行不断压缩。

(2)其次是初始划分阶段,在二次划分超图的基础上,利用二次方法,来不断强化超图质量,使得工作效率有效提升。

(3)最后迁移优化阶段,分解超图之后,在投影基础上,使得分解质量不断提升。

3.4  高维数据挖掘的工具

现阶段,存在三种使用广泛的高维数据挖掘工具:第一,SPSS;第二,Exterprise Miner;第三,SAS。存在如下特征:

(1)SAS:是建立在统计理论之上的,存在诸多功能,高维数据挖掘功能相对齐全,但是需要专业人士进行操作,并且存在极高的运用成本。

(2)Exterprise Miner:具有操作简便的优势,高维数据的处理能力相对适中,但是不能进行数据搜索。

(3)SPSS:和SAS具有类似功能,但是相对而言具有较高性价比,高维数据挖掘功能较为出众,除此之外,立足于集成以及发布功能,工作人员能够较好的掌握挖掘结果,并且理解挖掘结果。


本文来源:《企业科技与发展》:http://www.zzqklm.com/w/kj/21223.html

网络客服QQ: 沈编辑

投诉建议:0373-5939925    投诉建议QQ:

招聘合作:2851259250@qq.com (如您是期刊主编、文章高手,可通过邮件合作)

地址:河南省新乡市金穗大道东段266号中州期刊联盟 ICP备案号:豫ICP备2020036848

【免责声明】:中州期刊联盟所提供的信息资源如有侵权、违规,请及时告知。

版权所有:中州期刊联盟(新乡市博翰文化传媒有限公司)

关注”中州期刊联盟”公众号
了解论文写作全系列课程

核心期刊为何难发?

论文发表总嫌贵?

职院单位发核心?

扫描关注公众号

论文发表不再有疑惑

论文写作全系列课程

扫码了解更多

轻松写核心期刊论文

在线留言