面向大数据的高维数据挖掘技术研究

作者：雷宇来源：《企业科技与发展》日期：2019-08-29人气：2523

1 大数据的发展挑战

1.1 在技术架构形式上

现阶段，数据库正在全球化，立足于该发展模式，分布式模式需要得以创建，除了需要庞大机器之外，还需要有效处理庞大的数据信息。但是面对大数据时代，针对飞速激增的数据量，传统数据分析已经不能满足需求，在以下3个方面得到体现：

1.1.1 数据处理的时效性

面对大数据不断推行，为了符合现阶段数据处理实际需求，数据实现在线处理。在此基础上，无论是数据处理选择，还是数据处理模式，都不断改变，处理具有实时性，除了能够实现流处理之外，批处理也成功实现。立足于大数据实时性处理，无论是业务需求，还是根据应用，都逐步发生改变。

1.1.2 实现了动态变化环境中的索引形式

在索引形式的基础上，关系数据库查询速度将不断提升，可是使用传统数据管理模式，索引形式并不可以产生变化，在此基础上，无论是更新效率，还是创建方式，都不断形成。针对大数据信息的变化特点，除了需要具备设计简洁的特点，创建索引方式还需要具有高效的特点，由此针对大数据变化，无论是数据信息的需求调整，还是数据信息的处理，都可以良好使用。所以说，针对大数据变化，全新的索引形式需要成功设计，在此基础上确保查询工作顺利实施。

1.1.3 先验知识的缺失

立足于传统数据分析结构，在关系型保存模式基础上，无论是出现先验知识，还是隐藏内部关系，都早已出现。比如说，对信息属性进行分析过程中，可能存在的取值范围需要确定，并且在实际分析之前，数据的了解就已经形成。针对大数据分析，无论是非结构化数据，还是半结构化数据，都需要创建类似数据，并且正式关系式需要实现。但是数据流的产生是不间断进行的，所以说针对实时发生的数据，先验知识并不会创建完善，在此情况下，对无先验知识，需要及时发现并及时处置。

2 高维数据挖掘中的问题

2.1 高维数据简介

在大数据库飞速增加的基础上，维数同样在急剧扩大，一旦增长到瓶颈出，数据处理将难以进行，人们将该数据就叫做高维数据。相对于传统数据挖掘而言，除了具有复杂性的特点之外，高维数据还具有多信息量性，由此成为数据挖掘的核心所在。

2.2 高维数据的特点

（1）稀疏性:实质就是数据库相对庞大时，即便高维数据非常多，但是能够符合使用要求的，相对较少。

（2）维度灾难:挖掘高维数据的过程中，往往存在较多的属性变化，在此情况下，索引结构性能将不断降低，特别是无论最近邻，还是最远邻，和查询点的距离往往都一样，由此最近邻往往是没有意义的，为此数据挖掘难度将急剧增加。

2.3 高维数据对于数据挖掘产生的影响

结合大数据特征，实际挖掘数据过程中，使用最近邻法，在庞大数据中查询效率将急剧提升，最近邻法往往依赖索引结构进行的，可是针对高维数据存在维度灾难的特点，最近邻查询往往被索引结构支持度将不断降低，甚至是使得最近邻查询无法有效进行。

无论是进行高维数据的分类聚类分析，还是进行高维数据的异常检测，受制于索引结构的制约，效果将大打折扣，甚至是失去效果，由此无论是异常检测算法还是聚类分析性能将不断降低；除此之外，针对同样的数据点距离，使得分类聚类概念意义不断消失，针对高危空间数据具备的稀疏性，任何数据点都能够视为异常点，此时针对高维数据异常检测将变得困难重重。

2.4 高维数据挖掘的研究方向

（1）距离函数或相似性度量函数:无论是重新定义距离函数，还是重新定义相似性度量函数，都能够成功避免“维度灾难”的制约。

（2）选维和降维:在不断降低高维数据维度的基础上，使得其成功形成低维数据，由此进行低维数据的数据挖掘。同时该方法最为人们所接受。

（3）高效的聚类算法和异常检测算法:为成功解决算法效率不高的难题，存在三个方面的措施：第一，设计性能更好的索引结构；第二，增量算法；第三，并行算法。

3 大数据的高维数据挖掘技术

3.1 大数据储存的三维矩阵模型

针对不一样来源的数据，往往可以选取不一样的数据处理方式。比如说，通常情况下，在分解数据种类的基础上，能够将调研数据分为三类：第一，单选；第二，多选；第三，排序。无论是传统数据记录，还是传统数据分析过程中，都是立足于同样数据库开展的，由此增加维度的不一样，无论是数据分析，还是数据处理，都将受到制约。

所以说，针对大数据时代，数据模型的创建除了需要具有内容多的特征，还需要存在极强的通用性。同样以上文例子为例，在数据调研过程中，无论是单选，还是多选，都能够依据向量来有效表达，对应的题目排序可以利用矩阵来表现，在社会网络数据的基础上进行，并且结合关键性类别来实际代表选题方式，最后模型转换则是建立在三维矩阵和传统数据库基础之上的(如图1)，处理关键数据，由此不一样的空间形式将存在空间维度之上，此时三维矩阵将有全部数据来源构成，进行有效组合之后，形成立体式模型，如图2。

3.2 关联规则的三维矩阵挖掘

实际进行大数据挖掘过程中，关联规则挖掘是最受人们青睐的。无论是不一样的属性，还是项目关系，都是没有办法隐藏，同时也是没有办法预知的，只有在统计方法和数据库的基础上加以实现。现阶段，关联规则挖掘技术凭借其良好的性能，成为了使用广泛的技术之一，在关联规则挖掘过程中存在以下核心要素：

（1）置信度:主要用于度量衡量强度以及准确性；

（2）支持度:主要用于衡量度量重要性。

在日常生活和工作中，在关联规则挖掘过程中，只有上诉核心因素数值最小的时候，支持度同样也对应最小值，由此才得以成功处于关联规则内。假如需要使得关联规则可靠性最低，此时置信度需要确保为最低。

想要使得多维数据成功在空间中表现，立足于空间特种，能够在多维储存模型的基础上成功表现，由此无论是数据层次还是数据语言，都能够有效表达。比如说：在检测海洋数据过程中，气象环境除了风力之外，还有降水等等；海底环境处理重力之外，还有水深等等；水体环境除了有水温计盐度之外，还有潮流和水声，因素众多且相互交织，由此多维数据得以形成。在模型建立的基础上，使得多维数据能够在空间成功表达，使得海洋多样化的数据结构得以呈现。

3.3 基于超图的聚类算法

在原始数据相互关系的基础上，结合超图数据集，使得图形划分方法不断得到优化，此为超图聚类算法。在三维矩阵之中，利用分割算法进行图像划分，使用最为广泛的即为HMETIS算法，存在如下步骤：

（1）首先是粗化阶段，在最小超图的基础上，结合推进超图，进行不断压缩。

（2）其次是初始划分阶段，在二次划分超图的基础上，利用二次方法，来不断强化超图质量，使得工作效率有效提升。

（3）最后迁移优化阶段，分解超图之后，在投影基础上，使得分解质量不断提升。

3.4 高维数据挖掘的工具

现阶段，存在三种使用广泛的高维数据挖掘工具：第一，SPSS；第二，Exterprise Miner；第三，SAS。存在如下特征：

（1）SAS：是建立在统计理论之上的，存在诸多功能，高维数据挖掘功能相对齐全，但是需要专业人士进行操作，并且存在极高的运用成本。

（2）Exterprise Miner:具有操作简便的优势，高维数据的处理能力相对适中，但是不能进行数据搜索。

（3）SPSS:和SAS具有类似功能，但是相对而言具有较高性价比，高维数据挖掘功能较为出众，除此之外，立足于集成以及发布功能，工作人员能够较好的掌握挖掘结果，并且理解挖掘结果。

本文来源：《企业科技与发展》：http://www.zzqklm.com/w/kj/21223.html

关键字：论文篇论文投稿咨询科技论文

上一篇：试论磨矿自动化技术与选矿厂节能降耗
下一篇：火力发电厂的节能降耗管理与技术分析

栏目分类

热门排行

推荐信息

期刊知识