从计算角度看大规模数据中的知识组织

作者：李旭晖/秦书倩/吴燕秋/马费成来源：《图书情报知识》日期：2020-04-10人气：702

大数据时代的到来促使各种大规模数据集不断涌现，如何组织其中的知识信息以提供内容更加丰富、功能更加强大的知识服务成为当前的研究热点。文章根据大规模数据中知识内容多元化、结构网络化、源数据非结构化以及状态频繁演化等特性，从计算角度对其知识组织的重点问题进行了探讨。文章认为，知识组织需要适应当前以知识复用、发现和增值为核心的知识计算服务的需求，其重点在于底层知识信息的组织管理并受到知识持续演化的重要影响。文章提出了以语义数据管理为基础进行知识组织的观点，并据此对大规模数据中知识组织的核心问题(包括语义数据模型、知识表示、知识计算等方面)进行了剖析，论述了各相关方向亟待解决的理论问题和未来可能出现的发展趋势。

1 引言

知识组织是对知识及知识间的关联进行揭示与组织，研究包括知识获取、知识处理、知识表示和知识共享等在内的一系列知识组织的过程[1]。早期的知识组织一般被认为偏向于对文献进行分类与编目，或是表示对信息的归类与组织。随着对文献、信息与知识三个概念之间的进一步认识与区分，知识组织的内涵也逐步发生变化。在大数据时代海量数据不断地产生并被保存下来，积淀下各种大规模数据集。这些数据集继承了大数据中的丰富语义内涵，同时相对于大数据的易变性而言其内容更加稳定，所蕴含的知识信息也极为丰富。随着计算机技术的飞速发展，将这些大规模数据集中的知识信息纳入知识管理的范畴已经成为业界共识，而如何有效组织和管理好这些知识信息则是当前计算机科学技术和信息管理等学科所共同关注的研究问题。

在大数据时代，知识组织的研究将更多关注揭示知识单元内涵语义、挖掘知识外延关联以及提供丰富灵活的知识服务，而这些目标的实现亟待知识组织方法和计算机领域的知识工程相关技术的深度融合与优化创新。

大规模数据中的知识信息具有密度低、关联多的特点。与传统知识库中的先验性分类知识不同，大规模数据中的知识大多是通过以数据挖掘为代表的计算手段发现得到的，其知识发现过程在本质上是一个数据集中所蕴含知识信息的自底向上的演化过程，因此，大规模数据中的知识管理需要有合适的知识组织方式与其知识演化的特点相适应。

数据中蕴含的知识被人们通过各种计算手段不断地进行归纳、总结和演绎，从而不断地产生内容上或结构形式上的演化。从内容上看，知识演化可以表现为隐性知识与显性知识之间的相互演化(知识螺旋)或是按照自然规律的新老交替演化[2]。结构形式上则主要表现为由低级形式向高级形式的进化或是面向需求的知识呈现上的变化。无论是何种类型的演变，对于该特性的刻画都需要保持从底层到顶层的一致性，考虑包括知识状态演化的感知计算、演化在语义模式中的体现及演化过程表达等在内的一系列关键问题。然而传统的先验式知识组织方式主要关注呈现结果，无法满足这一知识特性。因此对大规模数据中知识的刻画与组织，尤其是针对知识演化方面的深层探究与重新审视成为当前知识组织方向迫切需要解决的问题。

文章将从计算角度出发，以保证知识高效有序地收敛于以知识服务为最终目的研究大规模数据的知识组织与管理。首先梳理描述知识组织与语义建模的研究进程；其次剖析阐述大规模数据集下知识组织的主要情境背景，即主要特点与重点目的；最后探究包括数据建模、知识表示与知识计算在内的核心问题并总结全文。

2 相关研究

知识组织的概念最早由美国图书馆学家布利斯(H.E.Bliss)于1929年提出。早期关于知识组织的研究侧重于利用新方法解决老问题，着重分类、主题词表等传统上的知识组织[3]。随着数据量的急剧增长及愈发明显的网络依赖，同时鉴于计算的发展及互操作性的重视，知识组织的探讨情境逐渐被转移到大规模数据集及网络环境中，知识组织开始进入后网络时代[4]。一般认为数据的大量累积使得传统的知识组织方式将不再完全适用。通过大数据的视角，特别是数据体积的尺寸、速度、多样性及准确性查看知识组织过程成为近年来的热点研究视角[5]。随着Web2.0对知识及其联系的复杂度的进一步深化，网络环境中的新元素、规则、目标流程及互动方式开始成为知识组织过程中不可缺少的考虑因素[6]。

在上层的知识组织探究中，知识组织的理论探究问题仍然保持热度，研究者从原则[7]、语义关系[8，9]或组织方式[10]等视角对知识组织进行重新审视，从经济学角度探究知识组织的重要性[11]。将知识组织划分为认识论、理论和方法论三个研究领域进行设计与研究[12]；以面向共享、面向知识服务等角度设计知识组织策略，改进优化知识组织也具有一定意义[13]。在底层实践构建上，计算机技术的进步与创新推进着知识组织的革新。利用本体、语义网、元数据、关联数据、标签[14-17]等概念与技术，对各领域知识设计知识组织模型成为研究热点。

综上可知，每个层次的知识组织研究都在向着契合新环境的方向优化。然而大多数知识组织研究是基于对外部因素的视角，对于知识本身，如知识演变等则相对较少。因此如何将知识本身的特性深度融合到知识组织中成为重要的研究课题。随着计算机科学与技术在知识管理工作中的全面渗透，从计算的角度对知识组织进行审视将更为全面且深入。从计算的角度上来看，大规模数据集下知识组织的基础主要体现为对表达知识的各种语义信息的组织。因此，我们认为在该层次上知识组织关键在于语义数据建模方法及基于语义模型的知识信息结构演化的表达。

关于语义数据建模方面的研究可以大概分为专门的语义数据模型研究与语义数据标准的探讨两个方向。在语义数据模型上，早期的研究通常将语义信息包含在实体与联系的属性上。这种语义数据模型或重视显式类型构造函数[18]，或重视属性的探究[19]，虽简单易懂，但对“联系”的表达能力却有限，尤其是在对复杂的联系上。20世纪70年代后期开始，以面向对象数据建模的角度来考察语义数据模型的设计与计算的方法开始逐渐被研究优化[20]。该类型的语义数据建模利用角色、关联等概念后虽改进了无法反映事物多刻面语义信息的短板，却仍存在难以简便描述动态语义演化问题[21]。为解决语义信息演化难题，研究者们进行了不一样的尝试。一种是采用多分类的方法[22]，将每一个对象描述成具有动态得失过程的实体。该方法在刻画对象的动态性上具有优势，却难以描述上下文联系与类型的层次性。另外一种方式是目前较为流行的角色模型。角色模型利用对象与所扮演的角色来表示语义信息，虽解决了上下文联系问题，但表现得并不自然，同时还存在角色内在关系难以描述的关键问题[23]。图模型也是近年来被研究者所重视的语义模型之一。大多数的图模型关注于节点、边、甚至是子图所包含的语义信息[24]，试图丰富模型的表达能力，但在后验语义演化与动态的角色的表现上却不尽如人意。

在语义数据标准的探究上，目前比较流行的是RDF、OWL等。RDF采用三元组形式描述数据原始信息，它在结构上极为简单，实际上却没有语义表达能力[25]。RDF把语义表现问题都推给上层应用，这样RDF数据集在处理上有优势，但在建模上却作用微小。RDFS在RDF基础上定义了术语、概念等，可以表示一些简单的语义，但在复杂场景中，缺少很多常用特征，语义表达能力仍较弱。OWL是本体描述的标准，是典型的传统知识表示形式。严格而言，ONL并不是数据模型，且没有较好的类似于集合代数方面的计算描述机制与查询表达优化机制。现有的基于OWL的数据处理通常还是会将OWL知识转换为RDF来进行处理，而这种消耗相对较大。同时，无论是RDF还是OWL仍然使用的是传统的数据查询进行知识复用的方式，无法体现出知识分析、演化方面的特点。

随着大量语义数据的累积与知识服务要求的日渐提高，如何高效处理、实时查询海量的语义数据，对知识进行发现并实现知识增值，成为一个非常重要且具有挑战性的科学问题，因此语义数据的建模、计算与表达都应被提升到这样一个高度上。现有语义建模的研究主要考虑已加工过的语义数据，同时也存在部分模型对知识的演化提供了一定程度上的支持(角色模型等)。但这些模型并没有真正考虑到如何直接处理以文本为代表的原始语义数据。同时在语义数据标准的探究上也存在着知识分析、演化方面的缺陷。鉴于这样的一种状态，利用语义数据建模对知识组织进行重新的审视与探究也变得必要且有意义。

3 大规模数据中知识的特点

大规模数据集用传统数据管理手段难以(也不必要)有效进行事务型数据管理。相较于早期知识组织方法和目前流行的知识库形式而言，在大数据和Web2.0的双重影响下，大规模数据集中的知识表示出以下几个特征：

(1)种类多元化

与传统的基于单一数据源的知识库不同，大规模数据中的知识种类分散，且并无明确的主题。例如，由微博信息汇集的数据源，其包含的知识门类繁多且水平参差不齐。同时，知识在形式结构上呈现出数据模式的多样化，数据集中的知识可以基于多种描述方法并通过多种数据模式呈现，甚至会采用不同媒体格式，例如跨媒体信息源中的知识往往是由图片、声音、文字共同体现的。此外，知识粒度也存在着多样化特点，不同抽象粒度的分类知识和规则知识与具体的实体-关系知识广泛并存于数据集中，知识的多样化对知识组织工作带来了新挑战，尤其是对知识获取与处理阶段的知识融合工作提出了更高的要求。

(2)结构形式网络化

大规模数据中的知识信息在继承传统的知识分类体系的基础上，更呈现出明显的网络化特征。大规模数据中的知识信息通常表征各类实体及其关联，自然构成了结构复杂的信息网络(如目前流行的关联数据集LOD)。这种网络化的知识信息难以用单纯树状结构的知识表示形式进行描述，而后者被广泛用于早期的分类目录直到当前流行的本体方法。同时，网络化的知识信息本身又成为新知识的发现来源，近年来以社会网络挖掘为代表的图结构数据中的知识发现成为研究热点，表明知识结构网络化作为知识的基础特性之一正在影响着当前知识组织管理的理论和方法的多个方面。为此我们需要基于知识的关联特性重构知识的表现形式，并重新探究知识获取、处理、表达与分享等组织流程。

(3)源数据非结构化

知识源的多元多维化进一步促进非结构化数据成为知识源的主要组成成分。结构化数据是已被标注的信息，在语义信息的解析过程中存在较低不确定性的概率，是现有知识组织较为成熟的数据类型。而非结构化的数据如自然语言文本、多媒体数据等等，由于结构和内涵上的语义不明确，在进行语义分析时往往具有更大的不确定性。这种不确定性的表达与消除直接影响了知识组织的整个流程，包括数据组织结构、知识表示与查询等都需要对该问题进行更深刻的认识与探讨。

(4)状态频繁演化

大规模数据集蕴含的知识在对数据的多角度、多层次的利用过程中一直处于动态演化的状态。知识演化的方式不仅表现在内容上的改进、扩充或删减，更体现在知识结构更新与抽象程度的改变上。知识的演化特性要求知识组织具有“弹性”，即能够具有随着知识状态的改变，进行知识重组织与服务的能力。这样一种弹性能力要求对知识信息的物理组织结构从底层构建开始就符合其动态演化的需求。此外，随着对知识服务高效性和准确性要求的提高，知识的演化将逐渐从被动演化过渡到主动演化，即知识管理系统需要主动发现新的服务需求并驱动知识演化。大规模数据集上的知识演化并非是全向的和无目的的，而是以知识本体和知识需求为导向。本体作为一种抽象级别较高的知识，能够在知识演化中作为从底层语义数据向高层知识信息演化的目标方向。而用户的知识需求则应该以知识本体的方式来表现，因此大规模数据中的知识演化可以看作是以“理解或解释”本体为目标的，从而能够为知识的主动、自动演化奠定基础。

4 大规模数据中知识组织的目标

知识的无序状态造成低利用率，因此对知识资源进行有效控制与序化以促进知识传播利用一直被认为是知识组织的基本目标。大规模数据集中的知识信息管理需要满足多层次、多角度的知识服务需求，其知识组织的目标主要体现在为海量知识数据的复用、发现与增值等方面的需求提供有效支撑。

(1)知识复用

知识的复用是根据知识服务需求对已有知识进行可重复利用。在大规模数据中，知识复用的主要方式从以往的知识查询演变为海量知识的相关性搜索，有效搜索内容从原始文档演变为知识信息。例如目前流行的知识图谱，就可以被看作是一种基于大规模知识信息的相关搜索，实现知识图谱需要用到问答系统和信息检索等多个方向的核心技术。知识复用服务要求知识组织在结构形式、遍历方法、搜索策略等方面适应大规模、高并发、多刻面的知识搜索以提高检准率及查全率。未来的知识复用方式还会更加丰富多样，可以预见的是知识条目的查询与知识相关搜索将无缝融合，为用户提供更好的知识服务体验。

(2)知识发现

复杂多样的知识源以及非结构化源数据在聚集海量数据的同时也造成了知识信息的模糊型，影响知识发现的时间与效果。在大规模语义数据中进行高效的知识挖掘是有效知识发现的必然要求。知识发现的计算复杂度普遍较高，需求数据集的底层管理设施为之提供相应的支撑机制。例如针对并行化语义数据处理及其基础上的知识挖掘工作，需要提供合适的数据存储结构、高效的索引机制以及对应的存储和索引分片和分片方式等，这些都是知识组织工作所必须考虑的重点与难点问题。

(3)知识增值

知识增值并非盲目的知识信息扩展，而是针对用户需求进行的、以创造价值为目的的知识信息的定向扩充与更新。能够支撑在知识增值过程中面向用户，提供高效灵活的知识拓展及个性化知识推荐是知识服务的新要求。采取合理的方式表现与表达方法，记录与挖掘用户的个性化需求以提供知识服务是知识增值的最终目的。

(4)服务需求演进

知识组织的最终目的是为提供适度维度与粒度且具有定向性的用户知识服务。利用大规模数据集的天然优势，对知识进行有效组织后，对知识进行复用、发现与增值成为大规模数据中知识服务需求的一个自然演进过程。知识的复用、发现与增值具有前后顺序关联且相互影响。知识复用为知识发现提供丰富知识准备，知识的复用与发现为知识增值提供良好数据基础。相反，知识增值也为知识的复用及发现指明更为准确的查询与发现方向。知识复用、发现和增值需求不仅要求知识信息在底层构建时充分考虑机器可读性，更重要的是在组织结构上知识信息更应切合新知识的发现和针对特定需求的定向知识增值的趋势。

5 大规模数据中知识组织的核心问题

大规模数据中的知识组织构建过程是一个复杂且系统的过程。根据上述知识组织的特点和目的，可以认为，随着计算机技术的发展与数据资源的累积，知识组织问题的重点不再是仅包括传统宏观的经验性知识的组织或是知识库中的规则与事实的组织，更需要将作为知识载体的计算处理工作纳入研究范围中。因此，从计算角度考察知识组织的核心内容与问题是研究大规模数据集下知识组织的主要途径。

从计算角度来看，大规模数据中的知识组织的基础和核心研究内容就是如何组织知识数据以实现知识服务需求可有效计算性。只有在立足于语义数据合理建模与高效管理基础上，实现知识获取、管理、复用、发现和增值等需求可有效计算，计算机才能够从大规模数据中准确地获得知识并主动配合知识的演化方向，进行高效的知识信息组织管理，进而实现更为精确且相关度高的知识搜索与发现。

数据作为知识的载体，是人们对事物认识的符号表示。这种反映事物认识的数据被定义为语义数据。一般情况下可以认为，知识的载体形式就是语义数据。语义数据种类繁多，目前并没有被准确地定义。最常见的语义数据形式是自然语言形成的文本数据。其他类型的数据，只要符合反映对事物的认识这一标准，无论形态如何都可以被称作是一种语义数据。尽管如此，通常研究者倾向于认为语义数据是自然语言文本数据或更加规范化的有语义标注的结构化/半结构化数据。对大规模数据中的知识进行有效组织与利用，需要从语义数据管理与利用的角度解决相关理论问题。文章认为当前存在如下方面的问题有待进一步探索。

5.1 语义数据建模

要解决知识组织有效计算问题，首先就是要根据知识需求特点来组织语义数据，其本质就是语义数据建模。因此在进行知识组织时需先探究设计合适的语义数据模型，使语义数据建模既能反映上层知识服务准则又能在结构上使语义数据与知识信息保持一致，保证知识组织工作具有直接转换为组织管理语义数据的能力。

作为知识组织基础与核心内容的语义数据建模，需要考虑以下三个方面的问题：

(1)非结构化数据中语义信息的表达

语义数据模型的基本任务是将所要处理的主要语义信息类型有效表示。现有语义数据模型主要关注如何表示已解析标注好的结构化语义信息，且在应用时直接面向领域里已有的知识结构，但在大规模数据处理工作中，更需要语义数据模型能够反映以文本数据为代表的常见非结构化数据中的语义信息。非结构化数据与传统结构化语义数据之间存在的“语义鸿沟”，一直是语义计算所关注的重点与难点问题。非结构化数据未经过人工分类，其蕴含的语义信息存在不确定性(原始数据在被解析为语义信息时会有多种可能或歧义)和多刻面性(即从不同层次、方面去考查原始数据可得到不同侧面的语义信息)。因此，在语义数据模型的支持下，将原始数据中蕴含的未经标注的非结构化语义信息与已标注的结构化/半结构化语义信息进行统一表现与处理是大规模数据下的知识组织中更应被关注的问题。

(2)知识演化在语义模式中的体现

知识的频繁演化促使反映知识特征的语义数据也应具有演化特性。传统语义数据模型大都属于先验型设计模式，考虑实际应用中的实体与关联，在应对知识状态频繁、主动演化的情况时并不能有效地进行修正与改进，缺少模型的稳健性及弹性。此外已有语义数据模型偏好于对结果的直接呈现，很少关注过程描述，这也是语义数据模型对知识演化过程进行描述的主要障碍之一。因此，要适应大规模数据中知识演化需求，需要语义数据模型在结构上体现出足够的灵活性，并且能够与知识信息在演化方向，演化形式和演化内容等方面相适应与配合。

(3)海量数据的语义分析

对海量原始数据进行深入语义分析是知识演化中的常见手段，是进行知识增值服务的基础，在知识管理的很多任务中也处于核心地位。语义数据模型需要从数据结构与原子计算操作两方面考虑如何适应数据语义分析的需求。一方面，模型的数据结构应能有效支持语义分析时涉及的大量归纳计算(如频繁模式的挖掘)，另一个方面，模型应提供用于实现语义分析的原子计算，满足上层语义分析需求能够方便表达并能在底层得到相应实现的要求。

5.2 知识表示

在数据建模后的知识信息表达，即知识表示，成为知识组织过程中下一个核心关键问题。对知识表示的研究在知识库相关研究中已积累一些较为典型的方法与成果，是个传统的研究课题[26]。一般而言，传统的知识信息的表示主要关注事实性知识与知识规则的表示，采用主要包括一阶谓词逻辑表示法，基于规则的产生式系统表示法，语义网络表示法及本体表示法等在内的一系列知识表示方法。虽然大规模数据情境下的知识组织特点与目标都发生了演变与深化，事实性知识与规则的表示仍是知识表示问题的主要内容之一。因此为更高效适应大规模数据带来的改变，传统知识表示方式需要进行一定程度的优化改进，使对事实性知识与知识规则的描述与表示能更有效与自然。除传统知识表示问题外，文章认为分类知识的表示、时空知识的表示、决策知识的表示及演化知识的表示亦是大规模数据下知识表示课题中关键性问题。

(1)分类知识的表示

描述事物间类别关系的分类知识是各种知识的基础，也是传统知识组织的主要方式与内容。随着网络化知识信息的大量涌现，传统的基于先验式分类体系的知识表示与组织方式不再完全适用。研究者们已经开始尝试研究利用本体、链接路径或结构演化等方式对知识分类准则进行优化[27-29]，但目前在分类知识表示上以本体知识为代表，仍主要沿用基于谓词逻辑的树状类别形式。随着网络化知识中语义及结构的进一步复杂化，这种传统的逻辑分类方式已经难以有效刻画语义数据和知识信息中丰富的关联特征。因此我们认为，大规模数据集中分类知识的表示方法，需要基于合适的语义数据模型着重研究不确定性知识的模糊分类及事物多刻面信息分类的问题。这是因为：①非结构化数据中的知识信息因非结构化数据本身的语义不确定性特点，其分类方式也存在着不确定性；②大规模数据中的分类知识需要兼顾后验式的、基于统计的分类方法，因此分类的不确定性是其内在特征；③事物的多类别事实是事物多刻面语义信息的产生根源，也是网络化知识信息的产生根源，而对其进行合理有效的表示则是未来进行高效的知识发现服务的基础。

(2)时空知识的表示

大规模数据集中知识信息的一个重要组成部分是对现实事物的描述(如新闻、评论等等)，其核心内容是反映事物发生发展的时空知识信息。对时空知识的表示一直是数据管理领域的一个重要问题，传统方法主要从表示事物的时空坐标空间和坐标间关系着手来刻画事物的位置物理特性。然而对于大规模数据集的知识利用目的而言，事物在时空环境中的动态变化过程及其体现出的状态、形式及结构上的有效关联与变化更是需要分析、表现和利用的重点内容，如何在底层语义数据模型的支持下描述这些内容，形成事物的时空知识网络并能有效的进行知识复用与发现，是对事物型知识信息进行组织所必须解决的问题。以工作流知识表示为代表的研究工作已经在流程知识表示方面积累了很多成果，而如何将已有的流程表示方法与原始数据集的时空知识信息获取方法有效结合，实现从原始的时空语义数据中获取组织时空知识，并进一步与时空知识服务无缝连接，还有待深入研究。

(3)决策知识的表示

大数据时代的决策管理所依赖的数据源正在从相对单一的知识库、案例库向更加复杂多样的网络数据发展，面向大数据的数据治理(Data Governance)技术已经开始应用于管理信息系统。对用于管理决策的大规模数据集而言，其知识内容也会相应地从传统的规则型知识扩展到网络化知识，决策知识的表示形式将不再是以分类知识为主，而是更应该凸显出知识的关联性、不确定性和可类比性。首先，为管理决策提供依据的原始知识是海量的、多元的、关联的，如何围绕决策的主题有效组织与融合这些海量知识数据，以进行面向决策计算任务的高效查询搜索，将是决策知识表示的一个基础问题。其次，决策知识更加注重从多个方面为决策提供相关支持信息，知识信息的相关性、准确性的程度等等都需要用不确定性方法来表示；第三，面向决策的大规模数据集将提供更加丰富的决策相关案例，但案例的质量、相似度以及可供借鉴的信息，都需通过专门的知识表示方法来对其进行刻画后再进行合理评估。

(4)演化知识的表示

知识演化提供一个独特且强大的理解并创造知识的路线图[30]，为知识发现与增值创造更丰富且相关的数据基础。研究知识信息在演化过程中体现出的特性，是一个具有指导性、前瞻性的重要课题。传统知识表示注重知识信息的横向逻辑关联；在知识演化的过程中，演化结果与数据源间的纵向逻辑关联和演化过程也具有丰富内涵，可以看作是一种演化过程特有的知识。实际上，时空知识或工作流知识可以看作是演化知识的特例，例如常见数据溯源技术就是对数据演化的描述。但目前对于大规模数据集中的一般演化知识的描述尚缺乏普遍适用的方法，其原因在于语义数据的逻辑结构复杂、演化方式多样、演化目的不确定。为追踪大规模数据集中的知识演化轨迹，演化知识的表示需要在刻画知识信息内容和结构的状态变化过程的基础上，兼顾知识信息的逻辑性、不确定性和一致性。

5.3 知识服务计算

大规模数据集的知识库基于语义数据集建立，在领域本体知识的语义数据表现基础上，知识服务的计算自然形成了语义数据集上以知识查询、搜索和知识发现为代表的知识计算。实现知识服务的有效计算是计算观点下知识组织的根本目标，知识的复用、发现和增值都需要以底层的知识计算框架为支撑。相对于以往的面向具体任务的语义信息处理工作(如信息抽取、语义理解、信息搜索和知识库查询等等)而言，大规模数据集上的知识计算将逐步向标准化、平台化的趋势发展，这个过程需要有更强的计算理论和实践方法做指引与支持。文章认为在知识计算的研究方向上将会重点关注下面几个问题。

(1)语义计算范型

大规模数据集上的知识服务类型多样，通过底层语义计算的标准化和平台化，能够有效支持各类知识服务的设计开发与实现。语义计算的平台需要有基于语义数据模型的计算范型作为理论基础。这种(些)语义计算范型应以语义数据查询和处理的原子计算操作为基础，综合知识推理、知识搜索和知识发现等知识计算核心任务在计算表现形式和计算执行过程上的特点，构建语义计算的代数系统或演算系统。在此基础上，语义计算范型将为常见知识计算任务设计具有较强可操作性的任务构建方法。

(2)知识服务的计算表现

在上述语义计算范型支持下，大规模数据中的知识服务将被映射为语义数据模型上的各种标准化语义计算。如何有效表现知识服务的计算形式将成为知识计算的核心问题之一，这里主要涉及两个层面的问题：一方面，为了满足各种定制知识服务应用需求，需要在语义计算范型基础上形成一套表现知识服务计算方法的设计模式，能够便于应用开发人员快速建立知识服务。另一方面，知识服务的计算最终被规约为构成语义计算范型的原子计算，从计算理论角度来看，其计算任务的有效性主要体现为基于数据集的原子计算的时空复杂度。如何在知识服务计算表现形式的基础上，对知识服务的计算复杂度进行分析评估，将是实践中的一个重要问题。

(3)知识的集成与融合

多源、异构、分布的知识信息的集成与融合一直是知识计算的一个重要研究课题。大规模数据中的知识信息在集成与融合问题上呈现出新的发展趋势。首先，非结构化数据源的广泛存在加剧了知识信息的异构程度，同时传统的结构化模式映射方法难以适用于基于非结构化数据的知识集成。因此，采用上述适于表现非结构化数据语义信息的数据模型并在其基础上建立语义模式映射将成为知识集成与融合的基础。其次，知识集成与融合的计算模式同时受到语义数据模型和分布并行计算模型的影响，企业对决策管理知识的集成融合的应用需求可能会催生基于并行图计算平台的专用的知识计算模式。第三，语义模式映射作为知识集成融合的逻辑模型，将与上述语义计算范型相结合，使得知识集成与融合的计算可以通过语义计算范型的原子操作实现，并可与其他知识计算任务无缝集成。

(4)知识的主动演化

大规模数据集上的知识演化将随着人工智能技术的融入逐渐从被动演化转变为主动演化。主动演化表现在内容和结构两个方面。如前所述，知识库在内容上的演化是以本体描述为基础、由知识需求驱动的，其实现过程是本体描述驱动语义数据集进行语义查询并自然积累各种相关的语义信息，形成了语义数据集乃至知识库信息的更新。对于抽象级别比较高的知识本体和抽象级别比较低的语义数据，两者之间可能存在“语义鸿沟”，填补这个语义鸿沟需要基于上述知识表示和知识计算表现的方法和手段。而依靠人工智能技术可以提供更高层次的控制机制，对填补语义鸿沟的计算步骤(半)自动进行分析和归纳，从而实现本体知识在语义数据集中的映射和解释，完成知识内容的主动演化。

知识结构上的演化以知识发现为主要方式。知识发现的数据源不仅仅是原始的语义数据，而更包括了知识演化过程中，知识信息在消除“语义鸿沟”过程中所积累的大量中间结果数据，从不同的角度用不同的语义本体进行解读，形成不同侧面的知识事实数据，而这些信息形成的过程中，还会产生很多中间结果，这些结果常常是有用的，这些知识信息交织在一起，构成了知识发现的新数据源。随着人工智能技术在知识组织中的广泛应用，对这些海量的知识数据进行自主、自动的循环迭代式挖掘，将成为知识发现的一个常态任务，形成知识结构上的主动演化机制。同时，在本体驱动知识演化的过程中，知识库将能自主进行对知识的内容和结构的演化模式进行归纳、对知识发现方式与方向进行更高层次地挖掘，从而进一步完善知识的主动演化。

6 总结

文章主要探讨在大数据环境下的知识组织的核心问题与发展趋势。大规模数据集作为大数据处理的积淀结果，其中的知识信息呈现出多元化、网络化、源数据非结构化以及状态频繁演化等特点，并对以知识复用、发现和增值为核心的知识服务提出了新的挑战。文章从计算的角度出发，针对大规模数据中知识组织的新目标，从作为知识数据底层载体的语义数据入手，讨论了语义数据建模、知识表示和知识服务计算三个与知识组织相关的核心方向，并初步探讨了其中存在的关键理论问题。

大数据时代的到来使得知识本身特性发生改变，并催促知识组织为适应这样一种新情境而改变方向与重点。随着用户对灵敏性及精准性的进一步要求，以知识本身特性为基础，融合语义导向、复杂结构关联等对知识组织进行深化革新与优化成为必然的趋势。同时伴随研究的进一步深入，无论是顶层建筑还是底层的构建上，知识组织都将面临巨大的挑战。文章仅探讨了未来知识组织工作中与知识计算相关的内容，而如何结合传统知识组织方法，在宏观层面研究大规模知识信息的组织管理和应用的方法、模型和技术，将是一个具有挑战性的重要课题，有待进一步探索。

关键字：论文篇论文发表社科论文

上一篇：从开放获取到“超越开放获取”　　
下一篇：知识交流效率视角下图情期刊影响力评价

栏目分类

热门排行

推荐信息

期刊知识