优胜从选择开始,我们是您最好的选择!—— 中州期刊联盟(新乡市博翰文化传媒有限公司)
0373-5939925
2851259250@qq.com
我要检测 我要投稿 合法期刊查询
您的位置:网站首页 > 优秀论文 > 正文

一种新的实时动态信息数据压缩模型-科技论文

作者:赣南师范学院科技学院—李德新来源:原创日期:2012-01-05人气:919

随着多媒体数据技术及压缩方法的改进,MPEG-4随后也被提出来,MPEG-4的研究分为基于数据和基于模型两种。基于数据的研究方法主要有:边缘检测、区域生长、聚类法、松弛法;基于模型的方法主要有:Kass提出的Snake模型、Bhandarkar提出的组合优化模型、Klinker提出的物料模型和MRF统计模型。

针对数据库存储背景下的数据压缩算法,基于小波理论的数据压缩研究成为热门的研究领域之一, 因为小波Mallat算法不仅可以把数据按多尺度的方式进行分解,形成较为简单

的形式存储,而且还可以减少空间的利用率。其主要思想是:把要存储的原始数据按小波Mallat方法进行分解,把分解的结果按MainPart和Relationship进行存储;然后再对第一次分解的结果MainPart再重复Mallat分解,直到满足原先既定的要求为止。

小波Mallat分解首先定义数据源: ,数据关系函数: 以上 ;再定义数据源与Mallat分解方法的参数集的小波函数 , 为任意的整数。Mallat算法把数据源加在尺度方程和构造方程上,对于任意的数据源函数: , ,变换成以下方程组的形式:

通过变换后的方程,利用小波的变换形成正交和分解关系,最后建立数据源与变换系数和小波系数的关系。

目前国内外对实时动态信息处理技术的研究工作主要集中在对处理的准确性、速度、复杂度等方面,目前粒子群优化算法(PSO)[1]、蚁群算法、AR(p)模型[2]、数据仓库等等技术[3][4][5]。Mark Palemer 总结了七种常用的对 RFID 实时动态数据处理的方法[6],文献[7]提出一种新的实时队列理论模型,包括对象实时请求队列,定时响应机制,这些方法经过模型分析,可以满足对数据实时性管理的要求,该文还提出Heavy Traffic理论模型在实时数据中的应用,也取得了预期的效果;文献[8]提出可变形模型对实时数据进行处理,对不确定性系统利用定义的FEM方法,把弹力系统理论应用到实时数据处理当中;时空结合的实时处理技术在文献[9]中提到,使用紧度公式建立的模型,对多维时空性实时数据处理取得良好的实验结果。实时动态信息处理技术是各国军事部门、安全部门、航天部门等研究的热点和重点,因此本课题研究的主要内容包括实时动态信息的表征,复杂场景下实时动态信息的视图呈现结构,多维实时动态信息复杂度优化等问题。

目前海量信息的处理技术主要包括从存储体系结构方面着手研究,近年来,人们提出了一种“替代层次式”结构的分布式系统体系结构         – Peer-to-peer 结构,分布式文件系统下一步的一个重要发展方向就是建立基于 peer-to-peer 结构的系统,以克服传统分布式文件系统的缺陷。文献[12]提出一种最佳匹配最近邻域的方法,对海量数据进行无监督自主分类;NN Searching 也称为相似匹配,或者相似查询,在文献[13]中提出,该方法适用在特殊领域内的海量数据挖掘。文献[11]对隐性数据处理及数据编码理论进行了深入的分析,Jaccard指数、标化因子和普性常数在海量数据处理中用来评估基类相似度, [12]对相关的隐性研究环境和背景进行了扩展,加入了适度因子参照,文献[10]对离散海量数据集处理进行了研究,提出利用根标图或者树的方法来处理该类数据,空间结构理论和Hybrids维提出来处理相关的海量数据,取得了单元点匹对性。

事件驱动的可重构技术是目前一个较热的研究领域,而基于RFID技术的复杂事件驱动实时信息管理系统更是近两年各国科学家研究的重点,在国外事件驱动已经研究得非常深入,新理论的涌现为复杂事件处理提出了新的挑战。[14]提出了一种基于复杂事件在 RFID 环境中应用的模式,描述了若干业务场景,并结合     EPCGlobal 提出的 ALE 架构描述了应用模型。在文章[16]中,提出了基于时间约束的RFID 事件模型,但是该文章缺少具体的实现框架。自从 90 年代起,对于主动数据库的研究促进了复杂事件处理的发展。目前对于复杂事件查询语言的研究,发布者/订阅者模型主要关注的基于单个事件的主题和预设条件的事件过滤,数据流处理语言又缺少对于事件流中未发生事件的查询处,而专门为主动数据库研究开发的复杂事件处理语言又缺少对于事件属性值的比较的支持。[15]提出了一种能够弥补上述不足的针对 RFID 事件处理开发的 SASE 语言。

复杂事件数据自动检测技术的关键是复杂事件处理器的设计,复杂事件处理器必须能支持对数据流的连续及长效操作,对引擎和查询语言的要求较高,目前国外主要采用的方法有:对单一任务的实时监控,数据传输规则及数据获取技术的改善,集成数据流及数据库查询方法,参考文献[10]介绍了一个系统的体系结构及与其它系统的集成方式,介绍了如何采用 Filter 和 smooth 对数据进行检测,B.Yijian etc     用 ESL(Expressive Stream Language),UDA(User-defined Aggregates),DSMS(Data Stream Management)方法构成 SMA(Stream Mill Architecture)利用服务器来检测数据流[14]。文献[15]介绍了一种基于Wireless Sensor Network (WSN)的复杂事件处理机,通过过滤机制、聚类组合、复杂重组等对复杂事件中间件理论进行了研究。文献[16]定义了事件处理语言,用来完成对复杂事件的定义;文献[17]相关集用在定义复杂事件上,而且给出了相关集解析方式。文献[18]将系统数据看作不同类型的事件,通过分析事件间的关系如:成员关系、时间关系以及因果关系等,建立不同的事件关系库,利用事件间的关联、事件提取以及事件分层等技术,从多个事件中提取有意义的复杂事件,使系统的不同使用者提取各自需要的信息,这些信息可是低层的处理数据,也可以是更高一级的管理数据。

小波分解算法对于处理实时动态数据还处于研究阶段,对于促进以上制造业的数据存储及以后的应用都有很大的引导及铺垫作用。

2、问题模型

首先假设数据流函数 ,先将数据流信号进行小波变换,按以下的形式把数据流函数进行分解:

根据多分辨分析思想,数据流的分解过程实际上是尺度变换 和小波变换 之间的关系,它们具有相互依赖的关系,具体的依赖关系如下所示(参数 为时间): 。

第二步,对数据流进行空间的分解,所谓空间分解即是把数据流的复杂度从高阶空间逐步分解到低维空间进行解析,这样不仅可以把问题的空间复杂度降低,另一方面是把解决该问题的时间复杂度降低。按Mallat算法空间分解思想,可以得到分解过程和空间分解关系如下,其中Date Relation是数据流关系集,表示数据流中数据与数据之间各维关系,比如时间先后、因果、逻辑推理等等:

第三步进行系数的分解过程,系数的分解过程是其中最重要的一步,所有的数据通过实时动态的关系联系在一起,系数一方面用来说明这些数据的内在联系,另一方面,通过对系数的分解来压缩存储的数据量,最重要的是通过系数的分解后,数据的逻辑性更强,数据显性更突出。具体的分解过程如下图所示,图中, 表示原始数据的系数关系, 表示须分解到的低级空间,H, G分别表示 和 , 和 之间的关系信号图 1:系数分解过程

这样分解以后,我们可以得到分解算法的公式,如下,其中condition()是关系信号集,表示转换之间的信号,当还原时须按此信息将数据进行还原:

        (1)

3、求解方法及分析结果

3.1模型求解

该模型的求解分为以下几个步骤:(1)信号的重建;(2)空间的重建;(3)系数的重建;模型的求解过程其实是分解的逆向过程,即:用小波变换对原始数据流进行变换后,主要的信息通过分解后存放在不同的分解空间里,对这些分解空间的信息进行还原是该模型解的关键,因为小波分解后的存储信息大大减少,其中数据与数据之间的关系另存在关键集中 ,因此模型求解的过程就是结合数据关系集,然后通过重建还原 ,变成原始的数据流 ,以达到数据压缩存储的目的。大数据量通过小波变换后可以存储主要的信息及信息之间的关系 ,重建的过程也就是数据关系的重建及数据的释放,基于该模型的求解如下所示:

(1)信号的重建过程:

(2)空间重建过程:

(3)系数重建过程, :

在追求高压缩比的基础上,还应该兼顾其它的方面,例如小波分解次数,计算时间、重构时间、关系复杂性定义等,所以小波基的正则性阶数应该取合适的值。该值决定了该模型的计算量及数据压缩比,从一般意义上来说,正则性越大,则数据流的压缩性越大,但针对实际问题来说不能一味追求阶数的最大,因为输出结果会随着变换系统的增加出现不连续性。特别是针对实时动态数据的压缩存储,其中的数据量较大,计算机性能要求较高,因此本实验的样本数据实验取于一大型制造业企业信息化系统的数据存储作为测试数据,该系统的数据是实时从制造现场采集上来,该数据包括设备数据、设备加工数据、员人数据、物流数据、订单数据等等,我们采用以上的模型进行数据的存储测试,通过数据模型模拟将得到最合适的阶数,用以达到最佳的压缩存储。

3.2实验结果及分析

先对测试数据进行整理,对原数据流小波分解后的系数进行排序,其中发现,大多数的小波能量都集中在少数的小波系数上。因此分别采用取所有分解尺度和按多尺度的方法,按上面的模型进行压缩和分解。

分析结果如下表所示:

Mallat分解层

原始数据大小

分解后数据大小

关系数据大小

1

1G

684.33M

2.1M

2

1G

401.14M

3.6M

3

1G

345.12M

4.08M

4

1G

234.23M

4.25M

5

1G

352.54M

4.66M

6

1G

420.79M

5.04M

由上表可知,对于大数据量的压缩,通过多尺度的分解实验表明,在相同的数据量下,通过多层的小波分解对于压缩的结果是不同的,四层的小波分解后得到的压缩比是最高的,但是随着分解层次越来越大,压缩比反而越小,因此最合适的分解层数是四层,按以上的数据模型可以得到最佳的压缩比和最小的数据存储容量。下图1利用MABLAB仿真对测试数据进行分析,在实时动态数据传输量为1G的情况下,分别对数据进行一层,二层,四层,四层,五层,六层Mallat小波分解,分解后的数据存储如图1左图所示,存储量有一定的压缩比。图1右图显示存储关系集所需要的空间增长,随着分解次数的增加,关系集也越来越大,但是与算法压缩后的数据存储量比,存储关系所花的空间开销并不算特别大,因此,该算法具有一定的应用意义。

图1:数据量及关系集

4、结束语

本文就制造业企业信息化系统数据存储这一问题展开讨论与研究,采用小波变换多层分解的形式,提出一种通用数据压缩算法,该算法通过对数据流的多层分解、空间多层分解、参数多层分解后,形成按时间为线索的数据压缩流,保存数据。通过实验表明,该算法在有限的空间内分解结果良好。

但是本算法还存在一些不足,例如算法的健壮性、实际应用中参数的考虑问题及数据流形式的表示中参数的选择问题,这些问题在实际的应用过程中可能更加复杂,因此,通过改进函数的参数及表达式,都可以把这类问题进行扩展,为后续的研究工作作基础。

 

参考文献:

【1】Zang,C.,& Fan, Y. Complex event processing in enterprise information systems based on               RFID. Enterprise Information Systems,2007, 1(1),Page 3-23.

【2】Roozbeh Derakhshan,Maria E. Orlowska and Xue Li, RFID Data Management: Challenges and Opportunities[J].IEEE International Conference on RFID Gaylord Texan Resort,Grapevine,TX,USA,2007,Page 175-182.

【3】H.Gonzalez, J.Han, X.Li, and D.Klabjan. Warehousing  and analyzing massive RFID  data sets. In   Proc of the international   conference on data engineering(ICDE06), 2006, Page 1-10.

【4】H.Wang and P.liu. Temporal management of RFID data. Proceeding of the VLDB05,2005, Page 1128-1139

【5】Y.C. Fung. Foundations of Solids Mechanics. Prentice-Hall, 1965.

【6】Gilles Debunne, Mathieu Desbrun, Marie-Paule Cani et al. Dynamic Real-time Deformations using Space & Time Adaptive Sampling, ACM SIGGRAPH, 2001, Page 12-17.

【7】Murtagh, F.; and Heck, A. Multivariate Data Analysis, Kluwer Academic, Dordrecht,1987.

【8】Arabie, P.; Hubert, L. J.; De Soete, G.; Eds.,Clustering and Classification, World Scientific, Singapore, 1996.

【9】Arabie, P.; Hubert, L. J. An Overview ofCombinatorial Data Analysis, in Arabie, P.; Hubert, L. J.; De Soete, G. Eds, Clustering and Classification, World Scientific,Singapore, 1996, 5.

【10】Bentley, J. L.; Friedman, J. H.IEEE Transactions on Computers, 1978, C-27, 97.

【11】Broder, A. J. Pattern Recognition, 1990, 23,171.

【12】Fionn Murtagh. Clustering in Massive Data Sets. Chemical Data Analysis in the Large, 2000, Bozen, Italy. Page 28-51.

【13】F.Wang and P.Liu, “Temporal Management of RFID Data”,In Proc.31st VLDB Conf., 2005,Page 1128–1139.

【14】Weixin Wang, Jongwoo Sung, Daeyoung Kim. Complex Event Processing in EPC Sensor Network Middleware for Both RFID and WSN. 11th IEEE Symposium on Object Oriented Real-time Distributed Computing (ISORC), 2008, Page 165-169.

【15】Liang Dong, Dong Wang, Huanye Sheng, “Design of RFID Middleware Based on Complex Event Processing”,IEEE conference on Cybernetics and Intelligent Systems,2006.

【16】Kaushik Dutta, Krithi Ramamritham, Kamlesh Laddhad,Karthik B. “Real-Time Event Handling in an RFID Middleware System” Workshop on Databases in Networked Information Systems (DNIS) 2007.

【17】Lars Brenna , Alan Demers , Johannes Gehrke , Mingsheng Hong , Joel Ossher , Biswanath Panda , Mirek Riedewald , Mohit Thatte , Walker White, Cayuga: a high-performance event processing engine, Proceedings of the 2007 ACM SIGMOD international conference on Management of data, June 11-14, 2007.

【18】Huang G.Q., Zhang, Y.F., Jiang, P.Y., 2007, RFID-Based Wireless Manufacturing for Walking-Worker Assembly Islands with Fixed-Position Layouts, International Journal of Robotics and Computer Integrated Manufacture, Vol 23/4 , Page 469-477.

网络客服QQ: 沈编辑

投诉建议:0373-5939925    投诉建议QQ:

招聘合作:2851259250@qq.com (如您是期刊主编、文章高手,可通过邮件合作)

地址:河南省新乡市金穗大道东段266号中州期刊联盟 ICP备案号:豫ICP备2020036848

【免责声明】:中州期刊联盟所提供的信息资源如有侵权、违规,请及时告知。

版权所有:中州期刊联盟(新乡市博翰文化传媒有限公司)

关注”中州期刊联盟”公众号
了解论文写作全系列课程

核心期刊为何难发?

论文发表总嫌贵?

职院单位发核心?

扫描关注公众号

论文发表不再有疑惑

论文写作全系列课程

扫码了解更多

轻松写核心期刊论文

在线留言