WEB文本情感倾向性分析研究综述
本文就是针对以往的文本情感分类工作,考虑国内外最新进展,对文本主客观分类和倾向性分析研究现状进行概括和展望。
1 主客观性文本分析
在主观句识别中,较简单的方法是通过对各种形容词的分析、识别,来判断句子的主客观性,这可以看作识别主观性句子最基本的思路,但往往还不够。对于主客观句子识别,比较常用的办法就是结合词性标注,利用贝叶斯分类器进行分
姚天昉等人从一些特殊的特征角度考察了主客观文本,如标点符号、人称代词、数字等,从而总结出七条主观线索。文献[2]在此基础上分别采用主观线索和主观模式的方法来提取主观句子,最后又将两种方法相结合来提取主观句子。并针对相同测试语料进行对比,结果表明,主观线索与主观模式相结合的方法是合理有效的。[3]通过分析微博文本的表述特点,提取一些主客观线索特征,以特征词和主客观线索做语义特征,2-POS模式为语法特征,采用朴素贝叶斯练的分类器分别研究它们对分类结果的影响。实验结果表明,特征选取上,同时考虑语义特征和语法结构特征的分类效果比仅考虑一种特征时要好。
总之,主观性文本识别主要以情感词为主,利用各种文本特征表示方法和分类器进行分类识别,该方法关键在于分类器和特征的选取。
2 文本情感倾向性分析方法
文本情感倾向性分析,就是对说话人的态度(或称观点、情感、语气)进行分析,也就是对文本中的主观性信息进行分析。文本情感倾向分析的研究大致可以分成四个级别:词语级、短语级、句子级、篇章级。下面就对其各部分进行总结。
2.1 词语情感倾向性分析
词语级感分析的研究对象主要是带有情感色彩的词语,以动词、副词和形容词为主。其中,除部分词语的褒贬性可以通过查词典的方式得到之外,其余词语的倾向性都无法直接获得。目前主要有以下几种方法:
1. 基于情感词典的方法。这种方法的主要思想是:选定 一组己知极性的词语并将其作为种子集合,对于一个情感倾向未知的新词,找到与该词语义相近、并且在种子集合中出现的若干个词,根据这几个种子词的极性,对未知词的情感倾向进行推断。这种方法对种子词数量的依赖比较明显。L. Bing在前人研究的基础上,人工构建一个包括30个形容词的集合,再利用WordNet中形容词的同义和反义集合来预测集合中形容词的情感倾向,准确率高达84%。[4]提出了基于马尔科夫随机游走模型的情感词分析方法。该方法也是先建立一个种子集合,然后通过语义相似构建候选词和种子词网络,最后通过马尔科夫随机游走模型判断候选词的情感极性,此方法适用于那些半监督或无监督的训练集,与前面方法相比此方法不需要太多种子词并且能迅速判断情感。
2. 无监督机器学习方法。这种方法与第一种方法类似,也是假设己经有一些已知极性的词语作为种子词,不同的是,第一种方法是以词典信息为依据判断,而这种方法是根据词语在语料库中的共现情况判断其联系紧密程度。基于此思想,采用逐点分析方法SO-PMI,其理论假设是根据自然语言文本里的一个现象:语义倾向性越相似的两个词,在同一篇文档中共现的概率越大。由于该假设是基于英文之上,不能直接用于中文的情感计算,文献[5]在对中文文本特点分析的基础上,结合语义和数据挖掘的相关理论,对逐点分析方法SO-PMI进行了改进,提出了一种新型的情感倾向计算模型,判别准确率可达80%以上。
3. 基于语料库的学习方法。该方法首先对情感倾向分析语料库进行手工标注。在这些标注语料的基础上,利用词与词的统计特征、共现关系、搭配关系或者语义关系, 判断词语的情感倾向性。这类方法的优点是能简单明了的分析情感,缺陷是需要大量的人工标注,人工干涉语料因素很大。
4. 利用词语之间的关联词及依存关系。关联词可分为3种类型:递进、并列和转折,利用关联词判断其前后词的情感倾向。A. Gammerma借助于DeParser对句子进行句法分析,得到词与词之间的依存关系及候选词的否定词和强调词,以此来修正候选词的原极性。
2.2 短语情感倾向性分析
短语情感倾向性分析是建立在词语情感倾向性分析基础上的,短语是词和词按照一定方式组合起来的语言单位,它的意义不仅包括内部各词的语义,还有各词之间的组合方式,因此根据短语内部各词的语义和词之间的结构信息来确定短语的倾向性。
在文本情感分类领域,最早使用短语模式的是Turney,他使用PMI-IR的方法计算待分析的短语与两个类别的基准词的相似度来计算短语的倾向性。在选择短语模式时,H. Takamura建立潜在变量模型对“名词+形容词”模式的短语进行倾向分类,同时说明短语的情感不是对词的情感的简单累计,该模型对短语的分类准确率达82%。而[6]从语法及语义的角度对词语的动态词汇层面进行分析,从而确定短语模式,同时在研究文本情感时,提出了基于短语模式的文本情感倾向识别算法,实现文本的情感分类。在特征提取上,C. Whitelaw 等从文本中提取诸如"very good"和"not terrible funny"之类的形容词和修饰短语的特征评价组,并对其进行分析获取其倾向性。而Faye Baron和 Graeme Hirst将抽取与倾向性比较强的词汇的搭配作为倾向性分析的特征,以提高文本情感分类的效率。
此外,文献[7]采用“情感倾向定义”权重优先的计算方法获得短语中各词的语义倾向度,然后分析短语中各词组合方式的特点,提出中心词概念对各词的倾向性进行计算并识别短语的倾向性,这种方法对短语的情感倾向识别效果较好。
2.3 句子情感倾向性分析
句子情感倾向性分析的对象是上下文中的语句,主要任务就是对语句中的主观信息进行分析和提取,得到与情感倾向性相关的要素,并利用这些要素进行倾向性分析,本文第二部分已经介绍过主客观句分类的相关方法。
基于无监督的句子级情感分析,主要通过词汇之间的极性确定句子情感极性,其基本思想:利用同义词-反义词关系,得到情感词汇及其情感倾向,然后由句子中占优势的情感词汇的情感倾向决定该句子的极性。在该思想基础上,文献[8]提出了一种基于汉语情感词词表的加权线性组合的句子情感分类方法。该方法通过已有的五种资源构建了中文情感词词表,并采用加权线性组合的句子情感分类方法对句子进行情感类别判断。同样,文献[9]提出了一种基于情感词语义加权的句子情感倾向性分析方法,该方法采用遗传学基因的思想。首先确定情感词的静态显性,界定情感词的辖域,然后构建情感词分析器,在情感词辖域内针对可以影响情感词情感倾向性的各种类型的因素进行分析,得出最终的情感词情感倾向,进而采用相应句式的分析方法得出整个句子的情感倾向性。
基于有监督的句子级情感分析,首先提取候选句子的情感特征,其包括情感词、词序列和句型等,然后训练情感句分类模型,最后预测候选句的极性。Wang等选取形容词和副词作为特征,提出了基于启发式规则与贝叶斯分类技术相融合的分析句子情感倾向性方法,大大提高了分类效果。Kim在n-grams模型的基础上引入位置和评价词两个重要特征进行句子级别的情感倾向性分析。D. Davidov等以词、语言模型、标点符号和固定搭配为情感特征,采用K最邻近法分析句子的情感极性,但这也造成了句子情感特征稀疏严重的问题。学者们通过对有监督学习方法的研究发现:关键特征、特征选取、特征融合选择的好坏,是决定其分类效果的关键因素。
对于分类方法选择上,文献[10]将基于规则的情感分类方法、有监督的分类方法和机器学习的分类方法结合起来,产生一种新的混合型分类方法,实验结果显示,该方法比单一分类方法能够提高分类效率。D. J Rodríguez提出了一种新的半监督多维情感分类器,这种方法与原先NB和SVM方法不J同之处在于能将不同的目标变量联接到相同的分类工作中,以便利用它们之间的潜在的统计关系,而NB和SVM仅是一维分类器只能预测单目标变量。此外,为了能在上下文中利用大量无标记的信息,他们将多维分类框架模型应用到半监督领域,实验结果表明半监督多维分类方法胜过一般的分类方法,并且还能提高识别率。
2.4 篇章情感倾向性分析
篇章情感倾向性分析是对文档中关于某一主题的观点、看法进行情感倾向性判断。目前,基于传统机器学习算法的篇章情感倾向性分析研究是当前文本挖掘领域中的一个研究热点。
基于无监督的篇章级情感分析与句子级情感分析相似,都是根据词汇之间的极性确定情感极性。例如M. Taboada等提出基于词典的篇章情感分析模型,即情感极性计算器。该模型使用标注了情感极性的词典,并且结合副词和否定词分析词汇的情感极性。A. L Maas等提出将词汇之间语义相似信息同词汇情感信息相结合的方法,利用连续的和多维的情感信息分析篇章情感。
基于有监督的篇章级情感分析模型,在特征选择和提取方面,A. Abbasi等首先利用信息增益抽取部分特征组成特征集合,然后利用遗传算法从该特征集合中选取最有用的特征,最后训练SVM模型并预测篇章情感倾向。同时,A. Abbasi等还针对整合n元特征时噪声、不相关和冗余属性的问题,提出基于规则的多变量特征选择模型,即特征关系网络。该模型考虑了语义信息并且利用了n元特征之间的语法关系,可以整合异构的n元特征来提高情感分类精度。
C. Lin主要专注于一般领域的文档级的情感分类,利用基于弱监督的JST模型将主题词检测和情感主题词分析方法联系在一起。该模型是对狄利克雷模型(LDA)的一种扩展,原先的LDA框架是三层结构,文档与主题相关,主题与词相关;而在JST中其在文档和主题之间构建一个额外的情绪层,就是将情感标注与文档相结合,主题与情感标注相结合,词与情感标注和主题同时相结合。针对领域适应问题上,吴琼等提出一个算法,其将文本的情感倾向性与图排序算法结合起来进行跨领域倾向性分析,该算法在图排序算法基础上,利用训练域文本的准确标签与测试域文本的伪标签来迭代进行倾向性分析。S. M Usha 认为情感分析的目标就是要确定文本具有的情感,大部分情况下,分类器能对单一领域进行训练而对多领域的训练性能却不好,对情感和主题检测的现有方法也存在这样的问题,情感是随着主题而变化的。他们提出一种CST模型来同时检测文本的情感和主题,这种模型是基于Gibbs样本采样算法,不像有监督的情感分类模型,在某一领域的情感分类效果好而转换到其他领域进行分类时,分类效果并不理想。CST模型具有很好移植性,CST模型与半监督分类器相比具有更好的分类性能。
3 总结
本文从词语级别的特征,到短语级特征,到句子级的特征,再到文本篇章级别的特征,介绍了近年来在文本情感倾向分析中人们提出了不同的方法,这些方法思想上有些是彼此相联的。但在这些方法中,还没有哪一种能够完美地解决文本情感倾向识别这一问题。所以今后还应进一步深入研究具体问题,将问题细化、具体化,继续寻找更有针对性、更简捷方便的识别方法。我认为在如下几个方面值得考虑:
上下文对文本情感倾向性分析的影响。相同的词语、句子处于不同的语境下会有不同的倾向性极性,针对此要深入分析上下文,研究语法、句法等相关作用。
语义理解。文本情感倾向性分析本质上也属于自然语言处理的范畴,需要对文本内容进行深入理解,如何引入更多的语言知识和认知知识也是值得考虑的方向。
多领域文本情感倾向性分析。在特征分析及分类器的使用上,如何使单一领域的分类方法能在其它领域使用上有相同的效果,这也是值得研究的。
- 2025年中科院分区表已公布!Scientific Reports降至三区
- 2023JCR影响因子正式公布!
- 国内核心期刊分级情况概览及说明!本篇适用人群:需要发南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的学者
- 我用了一个很复杂的图,帮你们解释下“23版最新北大核心目录有效期问题”。
- CSSCI官方早就公布了最新南核目录,有心的人已经拿到并且投入使用!附南核目录新增期刊!
- 北大核心期刊目录换届,我们应该熟知的10个知识点。
- 注意,最新期刊论文格式标准已发布,论文写作规则发生重大变化!文字版GB/T 7713.2—2022 学术论文编写规则
- 盘点那些评职称超管用的资源,1,3和5已经“绝种”了
- 职称话题| 为什么党校更认可省市级党报?是否有什么说据?还有哪些机构认可党报?
- 《农业经济》论文投稿解析,难度指数四颗星,附好发选题!