科学论文功能单元本体设计与标引应用实验

作者：王晓光，李梦琳来源：《中国图书馆学报》日期：2020-03-24人气：875

0 引言

随着科学研究事业迅速发展，科学知识增长开始加速，直接表现为科学论文数量的暴涨。科研工作者每年的阅读量在日益增长，而单篇文献的平均阅读时间却在逐渐下降，读者不得不在短时间内找到并阅读完自己感兴趣的文献[1]。从读者的理解对象来看，真正有价值的是这些科学文献内的特定部分而非全文。随着知识资源形态的多样化和用户知识需求的精准化，学术文献呈现出细粒度和语义化发展趋势[2]。在这样的环境下，帮助用户快速准确定位科学论文中的情报单元，并进行比较分析和战略阅读，就显得尤为重要。

科学论文的组成结构复杂，从形式结构来看，一般包括题目、摘要、表格、图片、参考文献、脚注、词组、句子等内容[3]。从逻辑结构来看，论文一般包括引言、文献综述、研究方法、结果和讨论等部分[4]。规范描述并准确表征论文不同内容部分的语义属性，是实现论文深度语义标引、情报抽取、知识挖掘和知识发现的基础[5-7]。科学论文内容本体设计在语义出版研究领域已经得到广泛关注。基于不同的理论和实践视角，不同形式的科学论文内容本体也陆续被提出[8-9]。但这些本体普遍关于论文的形式结构和修辞结构，没有对论文的语义功能结构进行理想的表达，限制了情报的自动抽取和知识发现。

本文参考已有的科学论文内容表示模型和本体模型，重点基于功能单元理论，设计了一种新型的科学论文功能单元本体(Functional Units Ontology，FUO)，从内容组件的语义功能角度对科学论文的组织结构进行细粒度建模，并采用标注实验对该本体进行可用性实验，检验该本体在科学论文内容语义功能表示上的能力。

1 相关研究综述

1.1 科学论文的内容组成部分及其属性

理解科学论文的内容组成部分及其结构具有重要意义。从语言学角度揭示作者的写作意图、文本功能、修辞结构等语义特征，对内容组件进行分类识别，有助于实现更高层次的知识组织与资源聚合[10]。基于此思想，研究者提出了诸多具有广泛影响力的科学论文内容结构模型，如引言—方法—结果—讨论(Introduction-Method-Result-Discussion，IMRD)模型。该模型将科学论文内容分为引言、方法、结果与讨论四大部分[11]。基于此模型，Teufel在修辞理论指导下提出了科学论文论证块(Argumentative Zoning，AZ)模型，该模型表征了论文内部的论证结构[12]。随后，Teufel又对这一模型进行扩展，提出了更细粒度的框架AZ II，将作者情感倾向与文本修辞功能进行结合，强调对不同观点的比较[13]。Liakata等[14-15]认为科学论文主要是为了阐明科学调查过程，总结实验结果，得出科学结论，因此提出了包括11个核心知识单元在内的核心科学概念(Core Scientific Concept，CoreSC)模型。de Warrd[16]也设计了一个包括7个类别的篇章块模型(Discourse Segment)。基于以上这些模型，研究者对科学论文进行了语义标注实验，构建了一些研究性语料库[17]，分析了各种内容部分的语言学特征，探讨了科学论文的知识建构问题，并且为文本自动标注提供了一定的基础规则[18]。有研究表明，利用多种模型进行协同标注可以实现更丰富的语义揭示[19-20]。

除了对论文内容组成部分进行分类建模之外，对不同组成部分的状态和属性进行描述也必不可少。“元知识”(metaknowledge)是Evans在2011年提出的一种描述知识生产的时间、类型及作者观点态度的概念[21]。元知识是隐藏在论文表层符号之下的潜在知识情报，揭示这些知识有助于科学交流和情报分析。Thompson等人对元知识进行了细致的定义，提出了EventMine-MK模型，并针对生物医学领域科学论文及新闻文本分别设计了Bio-Event[22]、News-Event[23]等元知识模型，涉及知识类型、可信度、极性、程度、来源等多维属性。de Warrd等[24]研究了论文内容的知识属性(Knowledge Attribution)和认知情态(Epistemic Modality)，进而提出了科学论文中的命题属性模型，包含确定性等级、基础、来源三个方面。此外，在引文关系研究中，陆伟等也提出了引文的8种属性特征，如被引文献类型、被引频次、是否自引等[25]，以支持更深层次的引文分析。由此可见，对科学论文内容组件的属性进行多维度的描述，不仅可以深入揭示内容组件的语义功能，还能更好地支撑基于文献的情报分析与知识发现。

1.2 科学论文内容本体

科学论文内容本体是借助本体技术对科学论文内容组成部分的规范化和形式化的表示，是科学论文组成结构的知识表示模型[26]。近年来，为了满足语义出版需要，科学论文内容本体逐渐产生。2007年，Groza等人提出的SALT本体定义了背景、讨论、结论、动机、情景等论文内容组件[27]。2011年，W3C提出了修辞块本体(ORB)，将科学论文分为头部、主体、尾部三大部分，并参考IMRD模型对主体部分进行了细致定义，包括引言、方法、结果、讨论等部分[28]。2012年，Peroni等人提出了描述科学论文修辞结构的篇章元素本体DEO[29]，随后又提出了描述文献内容组件的DoCO本体[30]，明确定义了诸如背景、作者贡献、材料、方法等多个内容组件。此外，Peroni等人还结合引文本体CiTO[31]、参考文献本体BiRO、出版流程本体PWO、出版角色本体PRO，共同构建了用以支撑语义出版的本体集SPAR[32]。在SPAR之外，Peroni还提出了AMO本体，定义了科学论文的论证结构[33]。

目前，科学论文内容本体在内容抽取、语义关联方面得到了应用，但主要集中在生物医学领域。Utopia Document[34]、Biotea[35]等项目借助DoCO本体对医学和生物学领域科学论文进行语义标引，同时结合领域本体，开发了知识库和语义出版系统。SLOR项目[36]也综合应用科学论文内容本体和引用本体对科学论文内容进行关联描述与语义发布。

总的来说，现有的论文内容本体多以修辞结构理论和语篇分析理论为基础，对论文内容组成部分进行表示和建模。这种本体模型因为理论视角的问题，无法深入揭示科学论文中的情报信息。事实上，科学论文中情报信息的揭示需要结合语言学的体裁分析、情报学的知识单元理论、信息搜寻理论和知识发现理论等来综合处理。为了构建更加适合情报分析和知识发现的科学论文内容本体模型，我们需要特别关注内容组成部分的语义功能。

2 功能单元理论

功能单元理论(Functional Units Theory)是由Zhang Lei[37]在2010年提出的关于科学论文语篇结构及内容组织方式的理论。Zhang Lei认为，功能单元是能够满足不同科学交流功能、实现知识传播任务的最小内容单元，这些内容组件分布在论文的引言、方法、结果和讨论四大部分[37]。功能单元理论借鉴了Swales的研究空间理论(Creating a Research Space，CARS)、语步分析[38]等体裁分析理论，识别出科学论文中的41个功能单元。同时，功能单元理论在信息使用模型的基础上，定义了读者阅读科学论文的五大常用信息使用任务，包括学习背景知识(Learn about background)、学习方法(Leam how to)、参考事实(Refer to facts)、参考论证(Refer to arguments)、跟进研究前沿(Keeping up)，并将细粒度功能单元与具体的信息使用任务进行关联，揭示出不同类型情报的语义功能属性。

基于Zhang Lei提出的功能单元理论[39]，表1详细表示了功能单元、论文IMRD结构模型和具体信息使用任务之间的关系。功能单元理论共区分了三类功能单元，参照IMRD结构模型定义的科学论文四大组成部分，第一类功能单元是与当前信息任务最直接相关的功能单元，第二类是在IMRD结构中对第一类功能单元的深入阐述，第三类则是与当前信息任务相关，但分布在其他IMRD结构中的功能单元。

从表1可以看出，不同的功能单元与特定信息使用任务之间存在一定的关联关系，特定部分的功能单元发挥着特定的作用，如在引言部分，功能单元“前人研究综述”和“前人研究贡献”在信息使用任务“学习背景知识”中发挥着最重要的作用。另外，同一功能单元在不同信息使用任务中也可以扮演不同的角色。各功能单元按照信息使用任务也形成了一定的层级结构。所以说，功能单元理论是面向信息任务、融合体裁分析的关于科学论文内容组织方式的基础理论。借助功能单元可以有效提升阅读过程中的内容导航、文献精度和深度理解，能够满足用户对于科研论文的不同需求，帮助用户实现战略阅读[39-41]。

相较于修辞、论证等语篇分析理论，功能单元理论具有以下三点特征，使其更加适合面向深度标引及情报发现的科学论文内容本体构建：①功能单元理论针对科学论文的语义功能和独特语境，规定了科学论文内容组件的类型及属性，定义更为全面、准确；②相较于一般的科学论文内容结构模型，功能单元理论对内容组件的定义更为细致，对情报功能的表达更为充分；③功能单元理论探讨了不同内容组件的功能及对用户信息使用任务的作用，将具体的内容组件与特定的信息任务进行了关联，可以用以支撑面向特定信息需求的检索与知识发现。因此，功能单元理论适合用于科学论文内容本体开发。

3 科学论文功能单元本体设计

3.1 本体设计目标

科学论文功能单元本体(FUO)的设计目标是，从语义功能角度准确定义科学论文内容组件的类型及其属性，构建科学论文内容结构表示模型，并利用规范的本体表示技术，建立可共享和可重复使用的科学论文功能单元本体。

3.2 功能单元类型调整原则

功能单元理论借鉴了大量诸如体裁分析、语步理论等语言学基础理论，因而在类目设置上具有较强的语言学特征，存在功能重复、累赘等现象。例如，引言部分的“提出假设”(Present hypotheses)和结果(Results)部分的“重述假设”(Restate hypotheses)均表示具有“假设”语义功能的内容组件。同时，功能单元的具体类目除了对当前内容组件的语义功能进行概述之外，通常还包括情感倾向、来源等属性信息。例如，“前人研究空白”(Indicate a gap in previous research)既包含了“当下组件的语义功能”(Indicate a gap)，又表示了组件的来源(Previous research)。

为了更加清晰地区分内容组件及其属性，我们首先对Zhang Lei提出的41个功能单元进行调整。一是将具有相似含义的类目进行合并，如将“强调主题重要性”(Claim importance of topic)和“陈述本研究价值”(State value of present research)合并为“研究意义”(Significance)。二是排除掉含义较为模糊或适用性不强的类目，如“防止反诉”(Word off counterclaim)。三是新增类目。数据一直都是科学研究必不可少的一部分，因此本研究借鉴DEO本体，新增“数据”(Data)组件，用于对数据集本身及数据分析过程的描述。四是重新界定名称及含义。功能单元类目名称多为“动宾结构”，如“陈述结果”“阐明定义”等，本研究参照多数科学论文内容结构模型，将类目名称改为“名词”形式，如“结果”“主题相关定义”等，以准确界定其表示的含义。五是确定各个内容组件的属性信息，借鉴已有的元知识表示模型，从来源、组件类型、确定性程度等多个维度确定内容组件的属性。

3.3 本体中的类设计

基于以上调整原则，我们设计了包含12个一级类、28个二级类的功能单元本体基本模型。其中，二级类具备一级类的语义特征。我们对方法、讨论、实验、数据等情报价值较高的部分进行了深入划分与界定。例如，将方法部分定义为方法描述(Method-Description)、方法选择(Method-Selection)、方法评估(Method-Evaluation)，将实验部分定义为实验素材(Experiment-Material)、实验任务(Experiment-Task)、实验步骤(Experiment-Procedure)与实验变量(Experiment-Variable)，将讨论部分定义为要点重述(Discussion-Recapitulation)、对比(Discussion-Comparison)、贡献(Discussion-Contribution)、局限性(Discussion-Limitation)，如表2所示。表2中的第四列“共现框架”指的是与本文定义的组件类型具有相同类目的框架，如本文定义的“背景”类，同时也存在于AZ、AZ-II、CoreSC、DiscourseSegment、DEO这些模型中。

相较于已有的修辞块本体、篇章元素本体等，本研究提出的本体具备多层次、多粒度的特征，能够更全面、细致地揭示科学论文内容组成部分的语义功能特征，能够满足论文深度标引的需求。

3.4 本体中的属性设计

科学论文中的功能单元通常都带有语境信息，如作者态度、观点确定性程度等。这些语境信息的缺失会影响计算机对文本的正确解读[42]。因此，科学论文功能单元本体必须表示这些属性。我们在参考Bio-Event、News-Event两个模型以及de Warrd的研究成果基础上，设计了5类属性，如表3所示。

在描述科学论文内容组件时，确定性程度用以表示内容的语义确信度，根据是否有客观事实为依据，可以将属性值定为高和低。如：基于客观数据得到的结论，其确定性程度为“高”，而由推理或猜测得到的假设，确定性程度为“低”。情感倾向揭示的是内容所传达的正负向情绪，包括评价、判断、推测等方面。如支持某一观点时，情感倾向为正向；表达某一结果的不足时，态度是负向的；客观陈述事实则为中立态度。知识类型包括调查、观察、解释及一般类型，与研究方法密切相关，如通过实验法得到的内容通常是由观察得到的，而通过问卷法得到的结论通常归为由调查得到的。来源包括作者本人的研究、引用他人的研究。时态包括过去、一般/现在、将来。如在陈述已有研究或实验过程时，通常使用过去时态；在展望未来研究时，使用将来时态。以上属性信息均可通过科学论文组件中特定的线索词反映出来，这同时也为机器自动标注、知识挖掘与知识发现提供了文本语义层面的基础。

特定的内容组件会呈现出相应的属性特征，具体如表4所示。先从属性角度来看，一般涉及科学事实、数据和引用的，都带有确定性程度和来源属性。情感倾向属性一般不存在于“主题”“背景”“实验”“未来工作”组件中，因为这些组件很少涉及评价、判断等观点性内容。知识类型属性不用于“缘起”“假设”“未来工作”组件。时态属性是普适的，在英文论文中所有内容组件都会有对应的时态特征。再从内容组件角度来看，“已有研究”“数据”“结果”“结论”和“讨论”组件的知识形态都能涉及表3定义的5种属性类型，因为它们都以科学事实和数据为基础，需要注明引用来源，同时也会有判断、评价性内容产生，故带有情感倾向。“假设”组件的属性特征比较清晰，通常确定性程度值为“低”，情感倾向为正向或负向。“缘起”和“方法”组件会带有情感倾向属性，因为大部分研究在研究动机和意义上都会表现出正向的态度，同时方法部分会涉及有效性评估。“实验”组件一般是客观陈述实验的素材、步骤、任务、变量，不存在事实、数据和结论、评判，所以不带有确定性程度和情感倾向属性；但是在选择实验变量时，通常需要借鉴和引用相关研究已经论证过的变量，因此带有来源属性。而“研究缘起”“假设”“未来工作”都不涉及引用，故没有“来源”属性，其中“未来工作”组件只是一般性陈述未来的研究方向，所以也不会涉及确定性程度、情感倾向和知识类型属性。

3.5 基于Protégé的科学论文功能单元本体表示

在开发了本体模型后，我们使用Protégé5.1对本体进行了表示。本体中的类如图1所示，属性如图2所示。

4 基于FUO的科学论文深度语义标引实验

4.1 深度语义标引方法

深度标引(Deep indexing)是近年来被广泛接受的新型文献组织方式，意在通过对文献内部不同粒度数字资源进行标引与组织，表征并揭示图表、数据及相关内容中蕴含的潜在知识，以满足用户高精度、细粒度的检索需求，实现知识挖掘、共享与重组目标[43]，已在信息检索领域达成了广泛共识[44]。科学论文内容的深度标引需要准确定义科学论文内容组件及其属性信息[45]。标引流程如图3所示。

图1 本体大类及其子类树形图

图2 本体属性树形图

图3 科学论文内容深度语义标引流程

在比较分析了标注工具GATE[46]和Annotea[47]后，我们选择了GATE作为标引工具。GATE由谢菲尔德大学开发，是一款集本体标注、自然语言处理等功能模块为一体的文本分析工具，最新版本为8.4.1。借助GATE平台可以使用本体直接对科学论文内容部分进行标引，并将标引结果以XML的形式进行存储。GATE可以对不同语义单元进行可视化呈现，其具体操作流程如图4所示。

4.2 标引结果存储示例

标注实验结果可以被保存为XML文档，示例如表5和表6所示。表5展示了学习方法部分的标注结果代码。这一部分主要包括方法和实验两大类及其子类，主要属性包括来源、知识类型、时态等。

表6所示为研究背景部分的标引结果，这部分侧重于对已有研究的梳理及对比，属性主要包括来源、知识类型、情感倾向、时态等。

图4 GATE平台的标引流程

4.3 深度标引实验结果

为了验证功能单元本体FUO对科学论文语义结构和功能的表示能力，本研究从学术期刊Journal of the Association for Information Science and Technology中随机抽取了2015—2018年间发表的10篇研究型论文作为实验对象，借助FUO进行深度语义标引。该期刊是美国科学技术情报学会的会刊，主要发表情报科学与技术方面的论文，论文格式十分规范。随机抽取的10篇论文如表7所示。

我们遵照前文所述流程和方法对这10篇论文进行了标引，并对标引结果进行了统计分析，以观察不同类型的功能单元在科学论文中的分布情况，结果如表8和表9所示。

表8揭示了每篇论文含有的功能单元种类数量。从表8可以看出，不同的论文含有的功能单元种类数量不同，有5篇论文含有30种以上功能单元，2篇论文分别含有25种和26种单元类型。再结合表9来看，不同类型的功能单元在文章中出现的频率也不同，有些功能单元如“背景”“研究目标”十分常见，有些功能单元，如“本人研究”和“方法评估”比较少见。综合这些统计数据可知，使用功能单元本体FUO可以对科学论文内容进行深度语义标引，具有较好的可用性。

5 讨论

5.1 多本体协同下的论文深度语义标引

科学论文是知识的容器，蕴含着不同类型的情报与知识。科学论文功能单元本体不受领域限制，但仅仅是一种视角。研究者还可以从不同的理论和观察视角提出更多的论文内容本体，揭示论文的情报结构和功能特征。事实上，为了全面揭示一篇科学论文内涵的科学知识和情报，还必须协同使用不同本体对科学论文内容进行多角度的深度语义标引。需要特别指出的是，科学论文内容本体与领域本体(医学、生物学等)不同，两者是不同类型的本体。在论文深度语义标引中需要使用内容本体进行语义功能标引，使用领域本体进行主题标引，两者缺一不可。

5.2 科学论文功能单元本体中的关系定义

科学论文内容组件间的关系在科学论文语篇有机构成中扮演着重要角色，但关系的定义和识别较为复杂。虽然修辞结构理论、论证理论都对内容组件间的关系进行了定义，但不同理论的语义关系定义存在冲突。功能单元理论对此考虑也不够细致，所以在我们的本体模型中暂时没有考虑这种关系定义。未来，可以借鉴体裁分析、语篇分析、情报分析等理论，对内容组件间的语义关系进行尝试性定义。

5.3 面向科学情报分析的内容组件重组

科学论文的不同部分隐藏着不同功能和价值的科学情报，揭示这些细粒度的潜在的情报具有重要意义。本研究利用功能单元本体FUO对论文进行初步的深度语义标引实验，统计分析了不同功能单元的分布情况。事实上，如果对所有论文进行深度语义标引，就可以对细粒度的内容片段进行重新组织，从而辅助情报分析和科研工作者的战略阅读，大大提高情报工作的效率和科研工作者理解特定科研领域宏观知识的效率。

6 总结

本文以功能单元理论为基础，面向科学论文情报表示和揭示需求，提出了一种新的科学论文功能单元本体FUO。借助该本体和语义标注工具GATE，对10篇样本论文进行深度语义标引实验，结果表明该本体适用于科学论文的深度语义标引，能够在一定程度上表示和揭示科学论文中各部件的语义功能及其属性。

该研究借助本体技术，首次清晰地定义了科学论文的功能单元及其属性，提出的功能单元本体FUO在信息组织、语义检索、知识发现、情报分析等领域拥有广阔的应用空间。但是，随着科学论文的数字化转型，越来越多的内容组件形式出现，如互动表格、数据集、音视频等，如何对这些内容组件进行建模表示，需要进一步考虑。不管如何，本文的研究深化了我们对论文这种知识容器的理解，完善了情报学视角下的科学论文语义结构与功能理论。未来，我们将继续细化功能单元的分类，并尝试从其他理论视角提出更丰富的科学论文内容本体。

关键字：论文篇论文发表社科论文

上一篇：偶然VS必然：公共文化服务研究的兴起与发展
下一篇：情报学研究范式与主流理论的演化历程（1987—2017）

栏目分类

热门排行

推荐信息

期刊知识