优胜从选择开始,我们是您最好的选择!—— 中州期刊联盟(新乡市博翰文化传媒有限公司)
0373-5939925
2851259250@qq.com
我要检测 我要投稿 合法期刊查询
您的位置:网站首页 > 优秀论文 > 社科论文 > 正文

一种基于知识元共现的ESI研究前沿知识演进分析方法

作者:孙震/冷伏海来源:《情报学报》日期:2020-04-11人气:768

1 引言

科学的结构是不断变化和蔓延生长的,正基于此,每一轮的科学革命和突破才能成为推动科技创新的基础。如何离析当前世界科技格局、监测重大科技发展趋势、掌握科学研究动态进展、挖掘科学结构变迁规律,是科技情报工作者和科技政策制定者所关注的重要议题。传统上,人们习惯用分类、主题词描述科学研究的秩序,但这种方式是与科学内在结构相违背的,要想识别科学研究结构,无疑需要对海量的科学论文进行分析,勾勒科学论文地形图,以保证科学主题随时间变化时内在含义的相对稳定性[1-2]。“研究前沿”的字面意思是指卓越科学家在某些领域最前沿所进行的领先研究,而计量学领域的“科学研究前沿”指利用科学论文网编织的某学科领域“地形结构图”,人们可以利用“地形图”探寻科学结构的本质、揭示学科领域的智力与社会认知、跟踪科学研究发展、评估不同学科交叉影响程度等[3]。

计量学领域当前对科学研究前沿的研究主要集中在识别方法上,并由不同方法的识别结果衍生了对研究前沿不同角度的认知。例如,引文分析中的共被引分析[4]、文献耦合分析[5],基于主题词的词频分析[6]、共词分析[7]、非相关知识发现[8]、概率主题模型[9],近年来还出现了离群数据挖掘[10]、语义计算[11]、论文下载使用数据分析[12]、科学文献多源数据集成[13]、论文专利结合[14]等多种研究前沿探测方法。诸多方法中,SCI创始人E.Garfield将共被引聚类的核心文献和引用这些核心论文的最新施引文献一起定义为研究前沿[15],在此基础上,美国科技信息研究所(Institute for Scientific Information,ISI)自2001年起推出了基本科学指标数据库ESI(Essential Science Indicators),成为世界上衡量科研水平与绩效、跟踪科学发展趋势的全球性分析评价工具,而ESI的“研究前沿”(Research Fronts)数据也成为计量学领域研究前沿权威定义、应用与实践的代表。例如,基于ESI的研究前沿数据,中国科学院与科睿唯安(Clarivate Analytics,原汤森路透知识产权与科技事业部)发布了“研究前沿系列报告”,在国内外引起了强烈反响:世界权威物理学杂志Physics World专门予以评述[16],原国家副主席李源潮在中国科协工作会议上也曾引用报告的研究结果[17]。

ESI研究前沿不是静态固化的,而是不断演变和动态发展的,如何深入挖掘研究前沿的内在演进规律理应成为科技情报领域的重要选题。遗憾的是,目前国内除了利用ESI研究前沿数据对某学科领域热点前沿或科研表现进行整体梳理外[18-19],鲜有将研究前沿数据深入到学科领域知识本身进行分析研究的报道;而且,现有对某领域研究前沿的演进分析也往往依靠人工判读[20],缺乏数据层面的客观支撑。基于上述背景,本文首先对相关研究进行梳理;然后在笔者前期展开的基于知识元科学计量的基本理论和初步实证基础上[21-22],提出一种基于知识元共现的计量分析方法,从学科领域知识流动扩散的微观视角揭示研究前沿演化机理;并以《2016研究前沿》化学与材料科学领域“高效钙钛矿型太阳能电池”热点前沿为例,验证该方法对研究前沿知识演进分析的情报有效性,以期为科技情报工作者开展科学前沿研究提供思路,也为相关领域发展态势研判提供一定情报基础。

2 相关研究

2.1 学科主题演化

学科主题演化一直是科学计量领域的热点方向。近年来,Song等[23]开发了基于马尔可夫随机场的主题聚类等新型技术,研究了DBLP索引中2000到2011年33个生物信息学会议主题的动态演化情况。Jensen等[24]通过由文献、作者、发表地等异质文献网络识别学科主题的最大影响因素,并利用异构网络元路径(meta-path)构建的主题演化树(topic evolution tree)绘制了可视化科学主题演进图谱。Tong等[25]基于创新算法构建单篇论文分类系统(publication-level classification system),利用直接引用、合著、共现等文献计量方法,研究了与诺贝尔奖相关的化学学科主题国际合作的演变规律。

国内对于学科主题演化研究也是持有关注。隗玲等[26]从文献标题中抽取主题词,使用Blondel分区算法和节点重合度指标对情报学学科的研究主题进行主题交叉研究和演化分析。刘自强等[27]基于LDA模型识别的研究主题,进行了主题热度、主题状态、主题路径多个维度的学科主题演化分析和实证。陶易等[28]通过对数似然值确定的显著变化高频关键词测度知识结构的演化,并利用因子分析、社会网络分析、定性分析揭示学科知识结构的演化过程和原因。

2.2 共词分析

共词分析作为一种在不同学科领域之间传递与表达知识的内容分析方法,是探索领域科学结构的有效计量工具[29]。Yang等[30]在共词分析方法基础上,结合聚类树、战略坐标图和社会网络分析等可视化手段,研究医学信息学领域的内部主题结构。Burmaoglu等[31]基于对作者关键词的共词分析,利用战略图和演化知识图谱研究互联健康(connected health)领域的内部主题结构及其演变规律。此外,共词分析方法及其可视化还曾被广泛应用于生物信息学[32]、人类基因组学[33]、纳米技术科学[34]能诸多专业学科领域。

与国外相比,国内对于共词分析的研究主要集中在方法改进和图情领域自身应用。例如,邵作运等[35]提出一种利用惩罚性矩阵分解(Penalized Matrix Decomposition,PMD)实现共词分析的新方法,并以学科服务为例验证该方法的聚类可视化效果。周丽英等[36]提出了利用引文耦合关系增强共词分析效果的方法,发现此种改进方法能更有效突出关键词间相关关系。赵宾等[37]基于共词分析和聚类分析、多维尺度分析、社会网络分析等可视化手段,对国内信息生态领域的研究主题分布进行了计量剖析。

综上所述,国内外专家学者从不同方法角度和不同应用场景推进了学科主题演化和共词分析研究,具有各自不同的创新特点。但是,学科主题演化和共词分析的基本对象均为主题词或关键词,虽然一些学者提出了一定的创新算法,但利用LDA、PMD等抽取的主题词和关键词,仍然隶属于文献表层的知识特征,并不能代表文献内部的具体创新知识点。将关键词或主题词看作知识单元进行研究,对于科学文献潜在内容的关联发现、特定学科领域知识地图的构建、捕捉学科领域思想等方面存在局限[38]。其次,现有研究普遍将主题词和关键词同等看待,并没有语义功能信息的标注,无法反映主题词或关键短语在科技文献中的语义角色。例如,科技文献内不同词或词组可能代表着研究材料、研究方法、研究技术等,如何对文本中此类特定语义角色词组进行挖掘和计量分析具有重要意义。另外,通过上述梳理也可以看出,国外的学科主题演化和共词分析研究,不但技术方法颇有创新,而且大多最终落脚于具体专业学科领域的实践应用。国内相关研究虽然也有方法的改进,但将主题演化分析和共词分析应用到STEM学科领域的实证研究实属不足,这也一定程度反映出国内科技情报界在领域知识分析和学科情报研究上着力的匮乏。

针对上述问题,本文基于自然语言处理、语义标注和文本挖掘技术,提出一种利用知识元共现关系进行研究前沿演化分析的计量方法。由于知识元是表征特定科学内涵的学科专业元素或基本要素[22],因此,首先截取科技文献中代表关键创新点的文本片段,然后抽取其中表征科学研究对象的知识元组分,最后利用知识元的共现网络特征进行研究前沿的知识演进分析,为面向文献内部创新点、基于专业语义知识的学科战略情报研究提供思路。

3 基础理论阐述

3.1 ESI研究前沿的形成机理

某一科学领域最前沿的研究,往往呈现出科学家们频繁密切交流的特点。这种交流可能是正式的(如论文、专著等),也可能是非正式的(如论坛、会议、电邮等),但其中最能从宏观视角俯瞰该领域学科发展知识布局的便是科学家成果之间的相互引用。不同的引用模式可以表现出不同的知识链接关系,也可以反映科学家在其他知识基础上建立自身工作的细粒度知识选择过程。因此,透过代表科学家核心工作文献的不同引用模式,就可以勾勒某研究领域特定时段状态的科学结构全景图。

在基本科学指标数据库ESI(Essential Science Indicators)中完成上述过程便称为研究前沿分析(research front analysis)[39]。分析过程利用共被引分析方法,通过识别6年内多学科中引用率最高的文献,对各学科内文献的共被引频次用Cosine加以标准化,以降低学科之间的差异性。标准化公式如公式(1)所示,其中共被引频次标准化(normalized co-citation)指数为,文献A和文献B的共被引频次(integer co-citation frequency of A and B)为,文献A、B的被引频次(citation frequency)分别为和:

将共被引频次标准化之后,设置一定阈值来确定研究前沿需要处理的共被引文献集,并利用单链路聚类法(single-link clustering)将那些关系紧密的文献聚类,得到核心文献簇。最终,研究前沿具有数字属性的识别结果便能够帮助确定该学科前沿的重要性及其发展阶段(如表1所示):在每个前沿中,核心论文数及其总被引频次共同表征该研究前沿的规模大小;核心论文集的整体被引频次反映该研究前沿的研究热度高低;核心论文平均出版年表现该研究前沿的发展速度和变迁方向;由核心论文内经常出现的关键词或标题术语所构成的研究前沿名称,则代表了该研究前沿的主题内容和专题焦点。

3.2 知识元计量在研究前沿演化分析中的效用

研究前沿的构成不会包涵一个学科的所有领域或全部文献,但是,ESI研究前沿可以帮助科学家确定某学科正在开展重要工作的研究方向以及科学共同体正在关注的重要领域。而研究前沿核心论文簇的施引文献集,恰好成为一条探索这些重要工作或重要领域不断发展与变迁方向的途径。因为研究前沿的核心论文虽是固定的,但核心论文所对应的施引文献却是不断变化的,如果将核心论文簇看作研究前沿的知识基础,那么随时间不断重构的施引文献集则呈现了研究前沿知识的流动、扩散和演化路径。再者,共被引分析的缺点是具有明显的时滞性,而将核心论文及其不断更迭的施引文献数据相融合,并在引文分析基础上集成基于知识元的共现分析,共被引分析与共词分析的有机结合,不仅能在数据源上弥补迟滞缺陷,也能在方法上最大程度保证研究前沿演进分析结果的可靠性。

如前文所述,现有学科主题演化的研究对象大都是关键词或主题词,虽也能得出一定结果,但也只是文献表层知识特征的反映,并不能准确表征文献内部的语义专业知识。例如,某篇研究钙钛矿太阳能电池的科技文献,其关键词或主题词大都包括“钙钛矿”这样的专业词组,但往往不会包含构成该太阳能电池材料的具体化学组分,如组成其电子传输层的、光敏层的等基本专业知识实体元素。其实,只有对这些代表学科领域创新的基本知识元素进行分析,才可能真正找到解决关键问题、推动领域发展的创新点和突破口。基于知识元的计量分析则能提供一条解决这一问题的思路。笔者前期研究中已经定义,知识元具有特定的科学内涵,是某专业学科领域科学研究对象、方法、过程、活动及结果等科学全生命周期的专业元素或基本要素[22]。对研究前沿施引文献集不同时间段的知识元组分进行计量分析,能通过文献内所含知识元的链接和重组,实现真正的知识发现与增值,描绘前沿内部学科知识的演化轨迹,厘清前沿的知识流动特征和发展变迁规律。研究前沿形成机理和知识元计量分析在研究前沿演化中应用的理论框架图如图1所示。

图1 ESI研究前沿形成机理与知识元分析在其演化研究中应用的理论框架图

4 研究方法

为深入到文献内蕴含的专业知识本身,微观定量剖析ESI研究前沿的动态变迁规律,本文提出一种基于知识元共现的研究前沿知识演进分析方法(具体流程如图2所示):以“研究前沿”核心论文的施引文献全文本数据作为研究对象,首先,利用JAVA自编程序截取每篇文献的“实验/研究方法/研究材料”(包括Experimental section/Methods/Materials格式等)部分;然后,利用命名实体识别等自然语言处理技术抽取研究对象知识元(研究材料的化学要素);最后,利用Gephi等软件进行不同时间窗下知识元的共现网络分析与可视化,探测研究前沿的知识演进路径。

图2 基于知识元共现的ESI研究前沿知识演进分析方法流程图

第一步:研究数据获取。在Web of Science(WoS)中检索研究前沿核心论文的施引文献题录,并下载所有施引文献的PDF全文。将施引文献PDF文档转换为txt纯文本格式,并利用JAVA自编程序截取每篇文献的实验/研究方法部分。

第二步:数据处理与命名实体识别。对截取的文本数据进行去除标点、去除停用词、词性标注、分词、构建词袋等处理,利用命名实体识别技术抽取代表每篇文献关键创新知识点的知识元实体(研究材料的基本化学要素)。

第三步:知识元共现网络构建与分析。将每篇文献实验部分知识元共现配对,并将知识元共现数据导入Gephi等软件进行网络分析和可视化分析。

第四步:研究前沿知识演进与发现。利用具有不同“中心”含义的3种中心性网络测量指标:点度中心性(degree centrality)、接近中心性(closeness centrality)和中介中心性(betweenness centrality),统计测度不同时间切片下知识元共现网络的网络特征,以网络中高中心性知识元作为代表,挖掘研究前沿的知识演进路径;计算整体网中知识元的共现模块度,识别频繁共现的知识元社区,进行研究前沿的知识社区发现探测。

4.1 OSCAR4知识元实体识别

OSCAR(The Open-Source Chemistry Analysis Routines)是由英国剑桥大学化学系分子科学信息学中心自2002年开发的自然语言处理开源工具包,用于化学文献数据的命名实体识别[40]。OSCAR4是OSCAR工具的第4代JAVA库版本,集成了正则表达式识别器(Regex Recogniser)、模式识别器(Pattern Recogniser)和最大熵马尔可夫识别器(Maximum Entropy Markov Model Recogniser),其API工作流程如图3所示。由于面向科技文献的化学实体文本挖掘并不像生物信息学那样普及便利,因此OSCAR自开发之日起就备受关注,已经成为欧洲专利局(European Patent Office,EPO)、欧洲生物信息研究所(European Bioinformatics Institute,EBI)、英国国家文本挖掘中心(National Centre for Text Mining,NaCTeM)等机构和医药公司的重要研发工具。

图3 OSCAR4命名实体识别工作流程图

在ESI研究前沿的十大学科领域中,大多数领域的研究对象实质均为化学要素知识实体。如农业植物学领域中植物生理机制的钾离子吸收、生态环境领域的溴系阻燃剂研究、地球科学领域的土壤碳循环、临床医学领域的抗病毒药物研发、生物科学领域的新型病毒特征鉴定、化学材料科学领域的钠离子电池、物理学领域的黑磷特性、工程学领域的纳米零价铁废水处理等,可以说,化学知识实体作为这些研究的知识元,代表了每项领域主题的基本研究对象和核心创新元素。以太阳能电池为例,历经非晶硅、染料敏化、有机太阳能电池等薄膜电池的发展,钙钛矿太阳能电池成为第三代太阳能电池最热门的方向,而这些太阳能电池核心材料(半导体薄膜等)的基本结构成分均为a-Si、、ZnO、MgPc、CuPc、等化学实体知识元。

另外,科学文献语法结构对词语语义特征的影响,也是保证计量对象抽取能否真正表征科学文献关键创新知识点的决定因素。其实,Suppe[41]早在20世纪便发文指出,科学文献中的“方法和数据解释(Methods/Data)”部分对于评价科学新发现是否可以纳入一门学科领域的共同知识基础(knowledge base)至关重要。Teufel[42]在其学位论文中也发现,不同学科写作风格多样化影响着不同学科的文献结构组成,进一步影响着领域知识信息的抽取语法位置构建,而几乎所有传统科技领域文献都含有标准的引言、方法、结果和讨论部分。武汉大学陆伟教授团队近年来也发表了一系列文章,探究学术文本的结构功能,基于语言学、机器学习、文本挖掘和自然语言处理等技术方法,识别章节内容和功能框架,并将其应用于学术搜索和关键词自动抽取,已取得系列成果[43-45]。可见,科学文献不同章节语法内容所体现的语义功能,反映了学术文本不同结构的目的性和功能性,用于计量分析的知识元抽取,理应将不同位置结构文本内容所蕴含的语义差异性作为首要考量因素。

事实上,科技领域文献常在其“实验/研究方法/研究材料”部分对材料制备的前期实验进行描述,该部分往往包含基本的化学组成和反应机理,代表着材料合成和性能改良的关键创新知识点。例如,一篇文献所截取实验部分文本的原始段落中,有如下的实验描述[46]:

该段语料在经过OSCAR4知识元实体识别,进行数据清洗、预处理、词性标注器过滤后,最终将得到带有CM化合物实体标签的知识元词串(即为上文中加黑加粗的词项),结果表示如下:

可见,经过数据处理后待实验的文本语料,是未曾改变科学家原始实验顺序的知识元词串,其上下文并非传统意义上的字词链接,而是具有表征太阳能电池器件材料制备前期、某种特定化学反应和关联属性的有序知识元排列。进而可以判定,如果化学实体要素在科学文献实验部分(包括Experimental section/Methods等格式)共现,则代表该化学知识元对之间存在现实相互反应关系(如的相互作用反应);而如果该知识元对在实验部分频繁共现,则表征此类化学要素实体对作为基本知识元组分,可能在一定时段内对促进该领域的知识发现(新材料发现)和创新(新材料性能改良)具有重要意义(如该实验文本中化学知识元的频繁共现,说明此时期以材料作为吸光层和材料作为电子传输层的钙钛矿太阳能电池创新制备研发)。因此,本文利用OSCAR4语义标注技术从全文实验部分抽取化学实体知识元,借助知识元对的共现计量分析,从微观专业知识视角挖掘推动领域发展的突破口和创新点。

4.2 知识元共现网络特征分析

网络分析主要包括3个层面:宏观层面统计(全局图度量),包括k-核、最短距离、度分布等;中观层面结构(群簇聚类特征),包括聚类系数、层次聚类、模块聚类等;微观层面指标(单个节点属性),包括不同的中心性测度。本文主要应用中心性分析和Fast unfolding社区发现算法对知识元共现网络进行分析。

4.2.1 中心性分析

(1)度数中心性(degree centrality):某知识元的度数中心性即该知识元与其他知识元的链接数量,如公式(2)所示,即知识元i的度数中心性,如果某知识元具有较高度数,表示其居于化学反应网络的中心位置,具有权力:

(2)中间中心性(betweenness centrality):如果一个知识元处于许多其他知识元对的捷径(geodesic,最短路径)上,说明该知识元在资源控制上具有较高中间中心性,在连接不同子群化学反应时起到桥梁作用,其表述为公式(3),其中是知识元j和k之间的捷径距离(geodesic distance):

(3)接近中心性(closeness centrality):某知识元的接近中心性聚焦其知识传递能力,是其对整个网络其他知识元化学作用影响能力测度的延伸,表述为公式(4),其中是网络中两个知识元的距离:

4.2.2 Fast unfolding社区探测

自模块度(modularity)的概念在2004年被提出之后,进一步推进了用于社区探测评价的模块度算法的发展,Blondel等[47]便于2008年提出了启发式模块度优化的Fast unfolding社区识别算法,不仅大大降低模块度运算时间,还能处理更为复杂、更大数据量的复杂网络结构。本文利用fast unfolding算法进行知识元共现网络的社区探测,算法原理为以下两步的迭代运行:

(1)模块度优化。将网络中的全部N个知识元分配为N个社区,计算每个知识元与邻近知识元进行社区组合前后的模块度变化值ΔQ,如果结果为正,重复此过程,按顺序对其他知识元进行社区组合,直到局部模块度达到最大化时停止。将知识元i组合到社区C时的模块度增量值ΔQ的计算公式如(5)所示,是C中所有链接权重总和,是关联至C中所有知识元链接的权重之和,是关联至知识元i链接的权重之和,是从知识元i到社区C中所有知识元链接的权重之和,m是整体网中所有链接的权重之和:

(2)新网络组建。利用上一进程探测得到的知识元社区组建新的复杂网络,新构建网络中知识元间的链接权重由对应原两个社区内的知识元链接权重之和所决定,而同一社区内的知识元链接在新网络中组成闭环社区结构。

5 实证研究

本文以《2016研究前沿》中“化学与材料科学领域”的“高效钙钛矿型太阳能电池”热点前沿为例,对基于知识元共现的ESI研究前沿知识演进分析方法进行实验验证,详细流程及结果如下。

5.1 研究数据获取

在Web of Science中检索该热点前沿30篇核心论文(附表)的施引文献,检索时间为2017年7月25日,共得到施引文献题录7022条(各年间施引文献篇数分布及其增长趋势预测曲线如图4所示);在相应数据库中下载7022篇文献的全文PDF数据,共获得PDF全文4860篇;将PDF全文转换为Text纯文本格式,并利用JAVA自编程序截取每篇文献的“实验/研究方法/研究材料”(包括Experimental section/Methods/Materials等格式)部分文本,获取实验文献数据2677篇。4860篇PDF全文最终仅利用机器自动截取得到2677篇文本语料数据的原因有两个:一个原因是一些期刊文献可能不包含符合传统标准规则结构的“Introduction、Experimental section/Methods、Results and discussion”格式,如Journal of the American Chemical Society、ACS Nano、Journal of Materials Chemistry A等;另一个原因是一些科技文献并不是原创的科学研究实验性质论文,只是“Letter”或“Communication”等通讯文摘。

每个时间段不同类型施引文献数据如表2所示。

图4 各年间原始施引文献数据分布及增长趋势预测曲线

5.2 数据处理与命名实体识别

首先对实验数据进行OSCAR4命名实体识别;然后进行去除标点、去除停用词、词频过滤等数据预处理,过滤掉不需要的字符;最后通过分词构建词袋模型(Bag of Words,BoW),利用PoS词性标注(Part-of-Speech tagging)过滤器过滤掉BoW词包中不包含OSCAR实体标签的字符。处理后所得数据即为包含OSCAR化合物(Chemical Compound,CM)、本体术语(Ontology Term,ONT)、反应名称(Reaction Name,RN)、化学形容词(Chemical Adjective,CJ)、酶类(Enzymes,ASE)等各类化学要素的命名实体。由于本实验所需为CM化学实体知识元,因此还要利用Notepad++对识别出的OSCAR标注实体过滤去噪去重,仅保留标签为CM的化学知识元实体。最后,将每篇文献的CM知识元两两共现配对,设置一定阈值导入Gephi中进行共现网络分析。数据详细处理流程如图5所示。

5.3 研究前沿知识演进分析

根据共现数据的多次预处理实验,最终选择共现频次大于或等于5作为阈值筛选符合标准的知识元共现对,导入Gephi软件生成共现网络,并计算网络中心性和模块度特征,分别对2010—2014年、2015年、2016年、2017年四个时间窗口的实验数据进行共现分析,从微观专业知识扩散流动视角挖掘前沿的知识演进轨迹。

如何低成本高效利用太阳能一直是世界性科学研究焦点,在经历了第一代单晶硅和多晶硅太阳能电池、第二代非晶硅和多晶硅薄膜太阳能电池技术的发展,钙钛矿太阳能电池自2009年被首次报道、2013年被Science列为世界十大年度科学突破开始(这与图4文献年代数量分布特征相符,也一定程度证明文献指数模拟预测曲线的合理性),已经被视为最具应用潜力的第三代高效太阳能电池,短短8年间,能量转换效率已经由3.8%迅猛增加到2017年的22.1%[48]。

5.3.1 2010—2014年研究前沿知识演进特征

2010—2014年知识元共现网络社区探测结果分布如图6所示(图6~图9中,知识元节点越大,代表度数中心性越大;节点间连线越粗、颜色越深,代表知识元共现频率权重越大),知识元共现网络中心性特征数值(表3~表6中,为比较不同网络中心性特征,将中间中心性和接近中心性数值归一化处理)与知识元共现频次如表3所示。

图5 数据处理流程图

图6 2010-2014年知识元共现网络社区探测结果分布图

图7 2015年知识元共现网络社区探测结果分布图

图8 2016年知识元共现网络社区探测结果分布图

图9 2017年知识元共现网络社区探测结果分布图

2010-2014年作为萌芽期,研究主要集中在钙钛矿太阳能电池基本构造、染料敏化与量子点电池技术改进等方面(知识元社区C1、C5)。钙钛矿太阳能电池一般由导电玻璃基底(FTO/ITO)、电子传输层(通常为)、钙钛矿光吸收层(多为、空穴传输层(HTM)和金属背电极等组成,因此、、FTO、HTM、ITO等知识元中心性数值较高。钙钛矿太阳能电池是由染料敏化电池、量子点电池等改进发展而来,因而其对应的DSSC、DSC、QDs(CdSe)等知识元中心性较高,且QDs、DSSC与共现频次也较高。

具体来看,此时期主要涉及对光吸收层(C2社区)、空穴传输层(C3社区)、电子传输薄膜材料(C6社区)等基本构造的初步探究。自2009年作为吸光层用于染料敏化电池改进,因其独特的晶体结构和理化特性,一直是报道最为突出的钙钛矿太阳能电池高效光吸收剂;钙钛矿结构通式为,光电性质可以通过改变A、B、X离子来调节,例如将金属阳离子B换为Pb、Sn[49]等元素,或采用等吸光材料。2012年,Spiro-OMeTAD被发现可以代替液体电解质,作为空穴传输材料(HTM)提高电池稳定性[50]。钙钛矿作为新一代有机薄膜太阳能电池(OPV),电子传输材料除由传统Si发展而来的外,还可采用[51]、ZnO等其他金属氧化物替代。此外,知识元社区C4则反映了此时期实验制备化学试剂构成,主要包括KBr、等。

5.3.2 2015年研究前沿知识演进特征

2015年知识元共现网络社区探测结果分布如图7所示,知识元共现网络中心性特征数值与知识元共现频次如表4所示。

相比于2010—2014年知识元社区的集中分布,可以看出2015年开始知识元社区呈现相对分散的布局,此时进入钙钛矿太阳能领域前沿的初步发展时期。多孔介观和平面异质太阳能电池成为研究热点(知识元社区C1、C3、C4、C5),基于/ZnO电子传输层,其多采用有机—无机混合结晶材料(有机金属三卤化物如,通常简写为,X=I,Br等)作为光吸收材料,该材料导带底(CBM)和价带顶(VBM)附近能带结构位置在合适的水平,禁带宽度为1.55eV(对应吸收截止波长800 nm),与太阳光谱匹配,具有良好的光吸收性能[52]。科学家还发现钙钛矿薄膜形态的有效控制与电池性能提高密切相关,而基于的薄膜制备技术成为报道焦点[53]。中心性特征分析结果也表明上述相关知识元中心性数值较高,且在知识元高频率共现对中出现。

值得注意的是,石墨烯(graphene)及其衍生物因其独特材料结构和光电性质,被发现作为两侧透明电极、电子传输层、界面修饰层、空穴传输层可提高钙钛矿太阳能电池转换效率和稳定性(知识元社区C2),引起关注(不仅中心性数值较高,且在Top 20知识元高频共现对中出现9次)。例如,石墨烯纳米带(GNRs)复合TiO2等作电子传输材料,石墨烯替代氧化铟锡(ITO)、氧化氟锡(FTO)等电极提高透光率[54],石墨烯量子点(QDs)促进电子提取效率[55],氧化石墨烯(GO)阻滞电荷复合等。另外,C2社区还涉及Au、Cu等金属电极材料探究。

5.3.3 2016年研究前沿知识演进特征

2016年知识元共现网络社区探测结果分布如图8所示,知识元共现网络中心性特征数值与知识元共现频次如表5所示。

通过图8可以看出,2016年间各知识元社区分布呈现更加分散和交叉的态势,此时进入钙钛矿太阳能领域前沿的快速发展时期。围绕钙钛矿太阳能电池的核心钙钛矿组件(知识元社区C1、C6)、空穴传输与电子传输材料(C2、C4、C5)、透明电极和金属电极(C3)、多孔绝缘支撑材料(C7)等知识社区不仅中心地位知识元更加清晰稳固,知识元组分也在传统材料认知结构基础上持续创新,出现了许多新兴的知识元组成构造。

具体说来,以()和为核心构造的钙钛矿太阳能电池仍牢牢占据研究中心地位,其相关组分知识元中心性及共现频次也均较高,但一些科学家也开始对缺乏关注的钙钛矿材料进行研究,发现其带隙大、可以用来吸收高能光子的优势值得开发[56];在前一时期将中金属阳离子B替换为Ni、Co等进行研究基础上,科学家在此时期开始将A替换为无机物Cs等进行无机铅卤钙钛矿材料的探索[57]。电子和空穴传输层作为进行电子—空穴对分离、吸收、阻隔的关键部件仍是研究热点,例如,CdTe、CdSe等无机半导体化合物量子点复合的电子传输材料引发关注,基于富勒烯衍生物PCBM)和ZnO的钙钛矿电池被证明具有更高电路性能[58];含硫聚合物(P3HT等)等新兴空穴传输材料展示了不俗的空穴传输能力。与此同时,以为多孔绝缘材料支架的介观超结构钙钛矿电池也逐渐进入视野[59]。

5.3.4 2017年研究前沿知识演进特征

2017年知识元共现网络社区探测结果分布如图9所示,知识元共现网络中心性特征数值与知识元共现频次如表6所示。

通过图9可以看出,相比于2016年,2017年知识元社区又开始呈现相对紧凑和集中的结构布局,中心结构稳固,边缘结构变迁方向清晰,开始进入钙钛矿太阳能领域前沿的稳定发展时期。代表卤化物(halide)钙钛矿太阳能电池的C1和C2仍然是处于中心地位的知识元社区,与其相关的等知识元中心性具有较高数值、高频共现对也占据较大份额。

虽然有机铅卤化物钙钛矿太阳能电池研究仍为火热,但其材料及高效电池器件的稳定性、吸光材料物理结构机理与性能等问题也逐渐引起科学家重视,逐步兴起以窄带隙甲脒基(FA)和无机等为代表的新型吸光材料(知识元社区C3、C4),以改善电池器件的稳定性,提高电池效率。MA-和FA-基钙钛矿的热重分析结果表明,(简写为)的热稳定性比都要好,使其成为拥有最高能量转换效率的钙钛矿核心材料[48];等全无机卤化铅铯量子点吸光层和发光材料,由于导带与价带之间缺少成键-反键相互作用,具有显著载流子迁移率和扩散长度,能保持其优良性质不受缺陷影响而引起重视[60]。

另外,有毒重金属Pb的环境污染问题和电子—空穴传输材料的成本问题等也成为聚焦热点(知识元社区C5、C6)。许多研究开始致力于无铅钙钛矿,如用Sn等IVA同族元素替换有毒的Pb,等Sn基钙钛矿太阳能电池具有较Pb基更高的电荷迁移率和更小的带隙宽度;在此基础上,以Cs、Rb等取代甲胺MA的型等无机非铅钙钛矿电池也被证明具有较好光电性能[61]。目前广为采用的Spiro-OMeTAD空穴传输材料成本过高,传输速率有限,P3HT(聚3-己基噻吩)等有机空穴传输材料有望推进钙钛矿太阳能电池的大规模应用[62]。

5.4 结果比较与验证

5.4.1 结果比较分析

利用VOSviewer对研究前沿核心论文的7022篇施引文献题录数据进行基于关键词和术语主题词的共现分析,并与上节中基于知识元的共现分析结果进行比较,检验知识元共现方法在研究前沿知识演进分析中的有效性和先进性。

基于7022篇文献作者关键词(Author keywords)与WoS关键词(KeyWords Plus)的关键词共现结果年代分布如图10所示(以共现频次大于等于5为阈值)。

对7022篇施引文献的标题和摘要进行术语主题词抽取,由于术语主题词数据量较大,以共现频次大于等于10作为阈值,并利用相关性算法筛选相关性得分居于前60%的主题术语作为计量对象,其共现结果年代分布如图11所示。

结合图10和图11的计量结果,可以看出,通过传统关键词和主题词的共现分析结果,虽然也能发现一些研究前沿的演进特点和发展方向。例如,从2014年到2016年研究范围逐渐扩大,研究领域逐步延伸和深入;经历了由染料敏化太阳能电池(dye sensitized solar cell)、量子点敏化太阳能电池(qdssc)到以为基本组分的碘化铅钙钛矿(lead iodide perovskites)和金属卤化物钙钛矿(halide perovskite)太阳能电池的发展脉络历程;电子传输层(ETL,electron transport layer)、杂化钙钛矿(hybrid perovskites)、全无机钙钛矿量子点()、混合卤化物钙钛矿薄膜(mixed halide perovskite film)等是近年来的研究热点。但是,图10与图11的计量对象虽是领域术语,但处于网络中心地位的大都是performance、efficiency、lengths、solar-cells、review、challenge、perspective、additive等无实际专业意义的词或词语,无法全面代表反映文献中的关键创新知识点和专业领域语义元素,基于此类关键词和术语主题词的分析结果不能较好地精确、完整揭示钙钛矿太阳能电池研究前沿微观层面的知识流动和演进变迁特征。相较而言,基于知识元的计量分析方法则能深入到文献内部,挖掘代表该领域创新知识组分的核心专业要素,利用共现关联网络实现专业知识元的链接和重组,呈现该前沿的微观知识结构构造及其演变发展规律。

图10 施引文献Author Keywords和KeyWords Plus的关键词共现结果分布

图11 施引文献术语主题词共现结果年代分布图

5.4.2 结果验证分析

本文是基于《2016研究前沿》数据进行前沿演进分析的,该前沿在2017年推进到什么地步、发展到何种程度,对于检验本文分析方法的可靠性和结果的有效性具有重要参考意义。中国科学院和科睿唯安(Clarivate Analytics)于2017年11月2日全球发布的《2017研究前沿》[63]中“化学与材料科学”领域关于钙钛矿太阳能电池的最新前沿分布(表7),恰好可以成为验证本文分析结果准确性的标尺和证据。

通过表7可以发现,《2017研究前沿》与“钙钛矿太阳能电池”相关的共有4个研究前沿,包括1个热点前沿和3个新兴前沿。热点前沿主要研究“新型有机空穴传输材料”,第5.3节的2016年和2017年知识演进特征中有关“P3HT有机空穴材料”的识别结果即涉及此类研究;新兴前沿聚焦“和非铅钙钛矿太阳能电池”,第5.3节的2017年知识演进特征中关于“无机卤化铅铯量子点材料”和“等环境友好型钙钛矿太阳能电池”的分析结果则很好地印证了该新兴前沿的知识分布结果。

另外,由中国可再生能源学会(原中国太阳能学会)和中国科学院物理研究所自2014年开始连年举办的“新型太阳能电池学术研讨会”,作为我国太阳能电池领域的权威学术会议,旨在“深入探讨新型太阳能电池研究领域尤其是钙钛矿太阳能电池研究所面临的机遇、挑战及未来发展方向”[64]。至2017年5月成功举办的4届学术会议恰好对应本文的4个年段,笔者通过调研该会议每年的会议报告和会议论文,通过与各年间本文的识别结果比较,也发现基于知识元共现的研究前沿演进分析方法,能很好地识别各时间节点所对应的代表性知识创新要素,对于从微观专业知识视角离析前沿的知识演进和发展脉络具有良好效用。

还需要说明的是,为实际验证基于知识元计量的研究前沿演进分析结果与现实中专业学科领域演变发展的吻合程度和准确性,特邀请领域专家对本文的识别分析结果进行了审阅、校对和把关,得到了领域专家的认可和好评。既证实了知识元共现的计量分析方法在研究前沿演进分析应用中的可靠性和实用性,也能再一次验证知识元科学计量方法相比基于传统关键词主题词计量分析的优越性。

6 总结与展望

科技战略情报的基本任务是:监测分析科技发展动态和动向,为把握科技发展大势、研判科技发展方向、识别科技创新突破口和生长点,提供事实数据及其关联证据。ESI研究前沿作为对全球科技发展布局和竞争结构的揭示,可以为前瞻谋划和布局前沿发展方向提供重要的情报参考,而基于知识元共现的研究前沿演进分析,则能从微观视角对科技文献内部的关键创新知识元素进行链接和重组,从由内到外的科学结构视角揭示科技发展的脉络、规律和方向,对于识别科技创新突破点、把握未来科技方向也能起到一定效用。

本文在前期研究基础上,提出了一种基于知识元共现的ESI研究前沿知识演进分析方法,并基于2016年研究前沿数据验证了该方法的可行性。该方法主要借助文本挖掘、语义标注和自然语言处理技术,首先截取前沿核心论文所对应施引文献全文的“实验/研究方法/研究材料”部分文本数据,然后利用OSCAR4命名实体识别技术挖掘代表每篇文献关键创新知识的化学实体知识元,最后对不同时间标签下的知识元共现网络进行中心性和模块度特征分析,进而从微观知识流动和科学知识结构变迁的视角呈现研究前沿的知识演进规律。通过与传统基于关键词和术语主题词共现分析结果的比较,检验该方法的先进性;利用《2017研究前沿》报告结果和权威会议论文等验证该方法的有效性和实用性。

我国著名情报学家马费成教授早在20世纪就提出:知识信息表达组织由物理层次文献单元向认知层次知识单元转换、知识信息计量从语法层次向语义和语用层次发展是情报学的基本任务和目标[65]。两个“转化”问题至今仍未很好解决,而作为解决此问题所尝试的一种思路,本文也存在一些局限:全文本数据获取仍是进行文本挖掘的最大障碍,虽然全文挖掘相比摘要题名挖掘能得到更优、更全面的研究结果,但医学PubMed以外其他领域出版商对全文数据的供给仍存在诸多限制,全文数据复用更是难题[66];出版商提供的全文数据多为PDF文档,将其转换为机器易读的文本格式不但耗时费力,化学式等领域实体转换前后的准确率和匹配问题对数据分析结果影响较大;计算机对专业知识语义尚无法做到精确理解,区分化合物和领域本体等命名实体的技术识别结果可能存在偏差;对专业知识元共现重组关系的解读需要领域知识的积累,个人的专业知识储备局限可能对一些边缘的、隐性的关联关系发掘具有一定影响。

因此,在未来研究中,除继续补充更全备的全文数据、探究提高知识元实体识别准确率的技术方法外,还将借助新型计量指标的设计,创新科学计量方法和理论,重点通过解决以下问题来深化研究前沿的知识演进研究:如何辨别研究前沿演进中的原创与跟随式创新,找出代表某时间段关键创新的核心知识元网络;如何识别上述知识元网络中的代表性知识元组分,通过定量计算此类知识元在不同网络中的时序迁移规律,厘析研究前沿的节律式发展进程。

网络客服QQ: 沈编辑

投诉建议:0373-5939925    投诉建议QQ:

招聘合作:2851259250@qq.com (如您是期刊主编、文章高手,可通过邮件合作)

地址:河南省新乡市金穗大道东段266号中州期刊联盟 ICP备案号:豫ICP备2020036848

【免责声明】:中州期刊联盟所提供的信息资源如有侵权、违规,请及时告知。

版权所有:中州期刊联盟(新乡市博翰文化传媒有限公司)

关注”中州期刊联盟”公众号
了解论文写作全系列课程

核心期刊为何难发?

论文发表总嫌贵?

职院单位发核心?

扫描关注公众号

论文发表不再有疑惑

论文写作全系列课程

扫码了解更多

轻松写核心期刊论文

在线留言