优胜从选择开始,我们是您最好的选择!—— 中州期刊联盟(新乡市博翰文化传媒有限公司)
0373-5939925
2851259250@qq.com
我要检测 我要投稿 合法期刊查询
您的位置:网站首页 > 优秀论文 > 新闻论文 > 正文

大数据文本挖掘技术在新闻传播学科的应用

作者:钟智锦,王童辰来源:《当代传播》日期:2020-03-19人气:1216

随着互联网和计算机的发展,人们在互联网、社交网络上产生了海量的网络文本。在计算机技术的辅助下,基于大数据的文本挖掘日益成为自然科学和社会科学中数据挖掘研究的重要领域,从2000年开始得到广泛应用。文本挖掘的数据主要包括新闻文本、研究论文、书籍、期刊、web页面、社交媒体文本等。①目前,国内外文本挖掘的主要研究成果均集中在社会科学与自然科学的交叉领域,国外研究更多涉及管理学、社会学、政治学等领域,而国内社会科学领域相关成果较少。②分析文本是传播学研究中的重要路径,近年来国内外传播学领域均有不少学者探索使用计算机文本挖掘技术解决大数据时代的传播问题。

本文旨在回顾和讨论文本挖掘技术近年来在传播学领域的国内外研究,对比传统的内容分析方法和大数据文本挖掘方法,通过案例介绍文本挖掘技术在新闻传播学研究中的主要功能,并分析其对传播学研究带来的机遇和挑战。本文主要利用Social Sciences Citation Index(SSCI)数据库检索外文文献,利用“中国知网”进行中文文献的检索。在搜索过程中,主要应用的英文关键词包括:text mining、text analytics、textcategorization、topic modeling、text retrieval、semantic mining、semantic analysis、semantic categorization等,中文关键词包括文本挖掘、自动文本处理/分析等。在输入关键词之后,通过SSCI的分类检索功能,选取与“传播学”相关的期刊文章;中文文献中选取了“新闻与传播”类别进行筛选。之后再对每个关键词所检索出的文献进行二次筛选,剔除虽符合主题和类别但属于质化研究的文章、通篇运用传统定量分析方法(调查、实验、内容分析)的文章、综述性文章(并未使用文本挖掘方法的文章)后,得到40多篇文献。文献出版年份均在2010年以后,其中2015-2017年的文献较多。

需要说明的是,计算机文本挖掘技术在社会科学中的应用属于跨学科研究,有相当一部分研究成果并未发表在传播学领域期刊,而是分散在计算机科学、社会学、政治学、理论物理等交叉学科,因此并未被本文选取。本文选取的文献来自于新闻传播学科传统SSCI期刊、与话语及信息研究相关期刊、区域性传播学研究杂志和部分中文刊物。

本文所选取文献的研究主题包括政治传播、科学传播、品牌传播、健康传播、大众传播技术、文本挖掘技术综述、社会网络分析等,其中应用于政治传播中的选举和对外关系研究、应用于科技传播和品牌传播的文献相对较多。文献的研究对象主要包括社交媒体发布内容、新闻数字文本(包括文字和影像)和期刊文章,其中以社交媒体发布内容为主。

二、从内容分析到文本挖掘

对信息的分析是新闻传播学科研究的主流,传统的研究范式多为以定量研究为主的内容分析和以定性研究为主的话语分析。传统的内容分析方法通过设定编码框、对文本进行人工编码,分析文本内容信息及其变化,从而对文本内容进行可再现的、有效的推断。③内容分析的基本步骤包括提出研究问题、抽样、确定分析层次、编码、检验信效度、统计检验等。内容分析发展至今逐步趋于成熟和完善,但其自身依旧存在一定的局限性,主要体现在抽样过程中可能会出现主观判断、手工编码效率低下、长期或集体作业可能带来信度问题。④在新闻传播学领域,以内容分析作为主要研究方法的论文较多,研究常常采用框架理论、议程设置理论、铺垫理论等经典传播学理论,分析报刊文本内容,从中找寻新闻媒体对相关议题的报道规律。

进入大数据时代,用传统方式对海量文本进行处理,不仅耗费人力物力,而且其数量之庞大也使人工编码等过程困难重重。基于数据挖掘的文本挖掘方法,可以利用机器学习来实现对大量文本的快速处理。相比之下,文本挖掘的方法在信息分析的过程中,从过程、方法、工具等方面来说,都与内容分析法有较大差别。文本挖掘涉及数据挖掘、机器学习、统计、自然语言处理、可视化技术、数据库技术等多个学科领域的知识和技术,包括数据预处理(包括自然语言的识别和抽取、数据源的分类等)、核心挖掘操作、统计分析、可视化等步骤。⑤文本挖掘方法能够更有效地提取、描绘信息,对传播内容进行可视化,⑥⑦从而呈现文本的宏观图景。⑧

传统的定量传播学研究中,在5W理论的视角下,内容分析法主要是运用在对“传播者”和“传播内容”的研究上,这与大数据时代下的文本挖掘技术在传播学领域的研究是相对应的,⑨但两者在实际操作和应用方面依旧存在着较大差异。笔者主要列举了对于传统传播学内容分析法和文本挖掘方法在样本大小、抽样方法、测量、分析单位、编码、效度检验等方面的不同(见表1)。

通过以上对比发现,文本挖掘不仅对于大样本数据的处理更有优势,而且也拓展了传统内容分析的测量范围,对于分析海量网络文本数据有着明显的优势。但是,计算机自动处理的维度仍然有限。而传统的内容分析虽然样本量不大,却胜在可以通过人脑进行复杂的编码,从而对文本进行更加丰富深刻的解读。在整个研究过程中,内容分析的编码工作耗时耗力,统计分析工作则相对简单。而文本挖掘的数据采集工作往往比较轻松,但由于网络数据多而杂,需要花费大量精力用于数据的清理。一旦算法确立,在数据分析部分则较为轻松。

三、几种常用的文本挖掘方法

(一)词典法

基于词典的文本分析在计算机辅助的文本分析中使用较为广泛,新闻传播学领域中有许多研究利用这种方法通过分析社交媒体数据来检验议程设置、选择性接触等经典理论。⑩(11)基于词典的文本分析法需要研究者先期确定一些分析类别和类别中包含的词语,即建立“词典”,然后将分析对象和词典中的词语和类别进行基于一定算法的匹对,来确定分析的文本是否属于该类别。例如,Conway,Kenski and Wang(2015)的研究旨在探讨2012年美国总统选举中媒介之间的议程设置,比较报纸和twitter文本的相互关联。(12)作者使用了WordStat软件构建词典,利用关键词集群建立21个议题类目,并通过人工检查来确保关键词能够恰当地代表某个类目,当某个关键词出现10次以上时,则被认为涉及到它从属的议题。

但是,基于词典的情绪分析方法最初是用于较为严谨、正式的文学作品,词义表达清晰,因此能保证较高的信度和效度。在分析网络语言时,由于词典本身需要跟随网络语言的发展而不断更新,再加上网络语言的随意性和片段性,都给词典法的算法和精准度提出了更高的要求。并且,词典的建立常常需要研究者阅读一定数量的样本文本,但是人的精力是有限的,当分析对象是海量数据时,样本文本的代表性和局限性会使得先期建立的类目和词库并不能完全覆盖海量文本的内容范畴。因此,当面对内容范畴无法预估的情况时,机器学习相对词典法而言,是更明智的选择。

(二)无监督的机器学习

无监督的机器学习是为了探寻文本数据中“隐藏的结构”,事先并无训练样本集,也就是说数据并未有一个人为给定的“标签”,需要机器通过聚类等算法,来发现数据的潜在类别规则。无监督的机器学习最常见的应用是主题模型的挖掘。主题模型算法将每个文档看作是一系列无序的词汇,每个词汇的出现频次不一样。算法将一篇文档中的词语频率解释为有权重的主题词的汇集,这些权重显示了一篇文档中出现的不同主题的概率。(13)比如,如果一篇文档中,基因、DNA、RNA、进化、突变、数据、计算、统计等词汇以不同的比例出现,那么主题模型就会计算出这篇文档包含“遗传学”“进化论”“数据科学”这三种主题,词语的不同比例意味着文章对不同主题的侧重是有差异的。

主题模型的方法是基于文档推测文档的主题分布,利用各个文档中不同主题出现的概率进行估计。主题模型主要用来发掘文本之间的隐含主题结构关系,通过挖掘共现词汇的循环聚群来探求其中的关系。(14)主题模型主要解决的问题是怎样生成主题,一般来说,一篇文档都是通过一定概率选择了某个主题,并从中以一定的概率选择某个词语而产生。概率主题模型的数学表达为:

一般情况下将收集的文本通过软件的辅助进行分词,再根据相应的算法对文本进行分类和探求其间的联系。常见的算法就是潜狄利克雷分布、结构话题建模、概率潜在语义分析等,其中潜狄利克雷分布(LDA)算法最为常用。(15)该算法非常适合于结构化的文本,比如,报纸、学术文章等经过精细编辑校对后的规范文字。当处理社交媒体数据时则会面临新的挑战,碎片化的、语义模糊的、缺乏上下文语境的、包涵各式各样表情符、缩略语甚至错别字的社交媒体语言,使得未经特别处理的LDA算法常常难以识别人类在虚拟空间中发布的文字的真实含义,(16)(17)有监督的机器学习因此应运而生。

(三)有监督的机器学习

有监督的机器学习(SML)将人脑劳动和计算机算法有机结合,一方面能够保留人脑对文本内容的准确理解;另一方面能够发挥机器处理海量数据的能力。在有监督的机器学习中,需要使用人工编码过的文本内容作为训练集,每个文档被转化成为一个可被计算的文本元素特征集,然后,所有文档的特征集和文本的内容标签(如人名、机构名)被用来训练分类器,以训练集为基础对文本特征进行分类。最后,对训练集以外的文本进行自动分析。关于有监督的机器学习的详细介绍可参见Russell and Norvig和Grimmer and Stewart的文献。(18)(19)这种自动化的文本分析方法既高效又能保持良好的准确度,一方面,一旦一个分类器训练完成,它能够迅速地分析大量文本,并运用于其他研究中,因而能达到事半功倍的效果;另一方面,人工编码的训练集质量可以严格控制,也可以随时用来评价机器学习的结果。例如,Burscher等人(20)使用两种SML方法来挖掘文本框架,一种方法是“基于指标的”,首先为不同的框架设立一系列指标,然后判断文本中是否包涵这些指标,并对指标进行整合来确定文本是否体现了某一框架,这意味着机器要首先分析指标,再分析框架。另一种方法是“整体性的”,训练分类器直接对文本的框架进行识别和分类,同样,在训练集中,每个框架用一系列指标集合来表示,只要文本中出现了某一个指标,就认为文本涉及到该框架。与第一种方法不同的是,此时用框架编码的最终结果来训练分类器,这个分类器能直接判断某个文档是否包涵某一框架,而不需要分析文本中是否包涵了某一框架的指标。研究发现,直接识别文本框架要比通过指标来识别框架的方法更高效,并且,训练集样本的增加能够显著地提高分类器的准确度。除此之外,研究者还发现,分类器在判断不同的框架时,其准确度也有一定的差异,在识别新闻中常见的冲突、经济结果、人类利益和道德这四种经典框架时,SML对经济结果这一框架的识别精度要高于其他框架。(21)

四、文本挖掘技术的具体应用

(一)情感分析

情感分析的主要目的是识别用户对事物或人的看法、态度,是一种自然语言处理过程分析的二级领域,自动对文本进行分类并且找寻用户对于某些特殊议题的态度。(22)在新闻传播领域的研究当中,多数都是判断文本所显示的态度是积极、正面的还是消极、负面的近年来,利用情感分析对网络文本进行的研究主要集中在以下几个领域。

1、政治传播中,利用网络文本情感分析判断网民的政治倾向。如Vargo,Guo,McCombs和Shaw发表在Journal of Communication上的文章,在议程设置的基础上提出了“议程熔合”和“网络议程设置”的概念,试图研究不同类型的受众如何通过不同的媒体来表达政治诉求,该研究通过情绪分析来区分推特用户的政治取向,将词典法和有监督的机器学习结合起来确保分类的精准。(23)作者首先将推文分为仅提及奥巴马的和仅提及罗姆尼的,然后计算出每个用户对某一候选人的情绪指数,来区分奥巴马的支持者和罗姆尼的支持者,使用的是擅长处理英文短文的SentiStrength软件(词典法)。为了验证词典法的分类效果,该研究又采取了机器学习法,随机抽取380条推文进行人工编码,形成训练集。再采用LightSIDE程序,使用简单贝叶斯分类算法建立模型。新的模型在原来的SentiStrength词典基础上,新增了322个可用来区分正、负情绪的词汇,研究者将这322个新增词汇补入SentiStrength词典,然后再抽取380条推文进行人工编码,此时SentiStrength自动编码的结果与人工编码结果的一致性达到82.8%。

2、在公共传播研究中,通过对网络舆论进行情感分析,判断网民对某些公共事件或社会重大议题的情感倾向。大多数新闻传播学研究对文本的情感分析仅存在积极、中立、消极这三种简单的分类,在一些传播学与心理学的跨学科研究中,研究者采用LIWC等词典软件,不仅能够识别正、负情绪类别,还能够分辨愤怒、悲伤、焦虑等具体的情绪,从而使得情绪分析能够达到更加细腻、丰富的效果。国内有学者(24)(25)曾将LIWC应用于网络公共事件中的情绪记忆和内地网民对港澳回归的情绪认知研究,如2017年的研究发现,在网民的讨论中,香港在负情绪上的得分显著高于澳门。

3、在品牌传播研究中,利用评论等文本的情感,分析用户对产品和服务的评价。(26)如在Liu、Burns和Hou的研究中,(27)利用情感分析对推特上用户发表的与品牌相关的文本进行分类,来探究不同种类的主流产品品牌之间的情感差异以及排名。他们选择了快餐行业、百货公司、制鞋业、电子产品、通讯业这五大行业的四个品牌,收集了2015年以来的一千万条文本,这些文本均“@”过所选品牌,将重复发送等“噪音”信息删除后,最终获得了170万条左右的推特文本。研究者分析了文本中蕴含的用户品牌态度(中立、消极、积极),再计算出对于某一品牌的负面情绪文本的比重作为用户对某一品牌的整体情感。为了检验其情感指标能否真实反映品牌满意度,作者用研究指标与2015年“美国消费者满意指数”进行相关分析,发现ACSI满意度排名与作者设立积极情感指标呈高度正相关,而与消极情感指标呈高度负相关。这种研究将计算机自动文本处理结果与传统的社会调查结果进行比对,是一种典型的研究思路。Hsu和Jane的一项针对票房的文本研究中,(28)收集了从2010年12月到2013年4月来自769部电影的台湾地区票房数据,以及来自电影论坛的网络口头传播的文本数据。该研究对论坛文本数据进行了情感分析,发现对电影的网络口头传播不仅是电影销量带来的结果,还是消费者消费行为的驱动力;对电影的正面和负面网络口头传播评价是不对称的;网络口头传播信息会影响电影的票房表现等。通过对电影行业的文本挖掘,为企业传播和商业对策提供了现实路径。

(二)主题模型

主题模型的主要任务是通过对词语、文本和主题之间关系的分析,对大量文本进行主题归类。Guo等人比较了词典法和无监督的机器学习(LDA)对2012年美国总统选举中7000多万条推特文本的主题分析。(29)研究发现,两种主题模型分析法的结果差异较大,总体来说,LDA分析的结果优于词典法,LDA能够识别更多的推文、分辨网络语言中更细微的区别。但是,LDA也存在一些问题,比如关于某个候选人的多个议题和特点会被合并到一个主题里,而有时这些议题和特点之间其实并无逻辑关联,因此,无监督的机器学习也需要人工干预来避免类似的错误。Sachdeva、McCaffrey和Locke进行的一项关于火灾的研究,其中的一个部分利用了推特文本构建主题模型对火灾、烟雾,以及发推文的地理位置进行了探讨。(30)该研究希望探究在检测部门还未发布权威数据时,如何利用社交媒体对火灾及火灾引发的烟雾起到追踪作用,建立由火灾引发的公共卫生事件的快速预防体系。作者通过关键词,收集了2014年9月1日至10月15日关于一场名为“King Fire”的火灾的网络数据,并且对于推特的地理信息进行了编码,共收集大约14000条推文。通过结构话题建模(STM)算法进行主题建模,共分析出了20个主题。研究结果发现:第一,推文主要的主题包括火灾的基本信息(面积、范围、活跃地区)、受灾者的情况、空气质量等;第二,距火源地的远近影响主题的分布,例如离火源越近的用户更热衷于讨论空气质量,越远的用户更热衷于讨论纵火犯、火的起因等方面的主题。作者认为,利用推特文本的主题模型分析,可以在环保部门数据发布之前,先对空气质量进行估计和预警,这对于实际的空气质量检测和公共卫生预警,具有重要的现实意义。国内有学者采用文档关键词提取、无干预的主题建模和人工内容分析相结合的手法,对公共事件的网络舆论进行话语框架的内容研判,发现不同类型的

公共事件在话语框架上的共性和差异,并认为语义建模方法避免了由于研究者主观臆断或者在框架判定中的理解偏差所带来的误差,能够使不容易被研究者发现的框架涌现出来。(31)

(三)语义网络分析

语义网络分析主要是探究词句间的数量关系,用词句作为网络中的节点,探究不同词句在整体网中所处的地位。语义网络分析是用量化网络关系呈现文本之间联系的方法。语义网络的概念最早由奎林于1968年提出,开始是作为人类联想记忆的一个公理模型提出,随后在机器学习领域中用于自然语言理解,又被称为关系内容分析,该方法是以高频词为节点,以高频词组合共同出现的次数为节点间的关系,通过构建语义网络来分析高频词组在文本中的语义,来反映作者的精神图谱。(32)这种方法会先在网络上进行数据抓取,根据研究主题进行分词、编码和内容分类,再利用软件计算出所抽取内容之间的关系的数量,建立关系的网络。语义网络分析相对传统内容分析更加客观,可以勾勒出媒体报道的整体形象,并且可以分析不同层面的问题。(33)与主题模型类似,语义网络分析的主旨是呈现文本的主要内容,通过词语之间的网络关系,可将整个语义网络区分成不同的社区,这种社区或者子群也是对文本内容的分类。

Guo和Vargo的研究中,对2012美国总统候选人相关的推特文本进行挖掘,利用语义网络分析等方法来探究网络中的议程设置。(34)该研究建立了议题所有权网络,指的是候选人对于国家事务相关议题的关联程度。具体分为候选人的“联系性”议题所有权网络(指候选人在推文中多次提到的议题,但并非是本党派在以往执政中所胜任解决的议题)和“胜任性”议题所有权网络(主要是指候选人在推文提到的本党派以往能够胜任的议题)。研究者通过建立语义网络,来分析媒体、竞选团队推特文本中对于不同候选人、对不同种类的议题所有权网络,如何影响公众对候选人的认知。研究者抓取了2012年美国总统大选期间,美国民众、新闻媒体和官方竞选团队的推特文本,以及民众发布的推特文本,并根据用户自我报告的政治意识形态(民主党/共和党)状况,对其进行分类,利用民众发布的推特建立词表。研究者选取了如税收、就业、同性婚姻等热议的16个议题。议题主要作为语义网络分析的节点,而两位候选人作为“自我网”中的“自我中心”。建立网络之后,研究者利用情感分析方法进行人工编码,对“胜任性”维度予以赋值,来判断其议题与中心是正向或是负向联系。研究发现,在新媒体时代,媒体议程设置功能依旧存在,而且会明显影响民众对于候选人及相关议题的公共感知;竞选活动利用新媒体传播,也会对民众的公共感知产生影响,竞选活动对于民众构建“胜任性”议题所有权网络更为有效。

五、结论与探讨

通过以上阐述和分析发现,文本挖掘技术在新闻传播学科的应用十分广泛,套用“5W”模式,文本挖掘在传播学研究中可以在以下方面大施拳脚。

一是传播内容研究。文本挖掘技术一方面能够突破内容分析采样的局限,处理海量数据;另一方面更突破了传统的传播学研究仅分析传媒(最常见的是纸媒)内容的拘囿,将分析对象推广至Twitter、微博、论坛等包含表情符、缩略语、口语等复杂情境的网络文本,以及图书、期刊等信息量巨大的规范文本。有学者通过回顾近年来在新闻传播学领域利用计算社会科学方法进行的实证研究,发现有关传播“内容”的研究中,主要对社会化媒介的内容和搜索词进行研究,前者主要是对数字文本的研究,后者主要通过研究搜索痕迹来了解公众的注意力。(35)除此之外,也有研究者使用文本挖掘技术来分析质化研究中获取的材料,如Baker等在一项健康传播研究中,通过访谈的形式,收集病人和医生在“如何与病人相处”和“如何面对疾病治疗”这两个主要问题的访谈文本,利用文本挖掘软件Leximancer进行分析。(36)研究发现医生和病人由于其所处角色不同而有不同的逻辑。作者认为,医患沟通中如果双方更好适应对方的传播逻辑,医生从关爱和支持的角度展开沟通,会让病人获得一定的心理支持,进而积极面对治疗。

二是传播者和受众研究。通过对传播者或受众写作的、口述的文本进行分析,不仅能够判断其语言风格,还能够挖掘文本中折射的态度、情感、信念、价值观念,从而推断传播者的身份、性格、心理状态和立场观念。除前文提及的通过对文本的情感分析来确定网民的政治立场之外,还有些研究通过网络文本来推测作者的性格。比如,Sumner等人采用机器学习方法分析了来自89个国家的2927名twitter用户的推文,从中推断出他们在大五人格特质(严谨性、外向性、开放性、宜人性与神经质)各个类别上的得分高低,并与样本自我报告的人格特征量表得分进行比对,发现能够达到较高的关联度。(37)

三是传播效果研究。新闻网站、微博、论坛、微信公众账号大多具有评论功能,通过对主帖和评论进行文本挖掘,可以发现网络内容如何被受众认知、解读、评价、传播,从而能直接考察传播效果。Ceron等人通过分析法国2012年大选相关的推特文本,发现了政治选举相关的社交媒体文本挖掘与传统的问卷调查方法都起到了很好的预测作用,随着社交媒体意见表达的增多,用户线下行为也会受到这些意见的影响,从而考察了社交媒体的传播效果。(38)

总的来说,传播学中的计算机文本挖掘,主要承担了描述、比较、解释的功能。一方面,文本挖掘的初始使命是对文本的内容、主题、情感进行描述,展现海量文本的概貌;另一方面,由于计算机自动处理远不及人工编码细腻丰富,仅仅对文本概貌的展示不足以支撑一个完整的研究,因此,在很多研究中,“描述文本”只是一个辅助功能,在“描述”的基础上进行“比较”或“解释”,才是研究的最终目的。在比较型研究中,“比较”的常常是网络文本和传统社会科学方法获得的数据或结果,如O'Connor,Balasubramanyan,Routledge & Smith分析了20082009年的7份关于消费者信心和政治观念方面的调查,发现调查的结果与同时期Twitter中流露的情绪有显著的关联,在某些议题中相

关度达到80%,意味着网络文本表达的情绪和观点能够补充甚至替代传统的民意调查。(39)抑或比较不同网络平台展现的、不同对象发布的网络

文本,如Qin(40)分析了“棱镜门”事件在Twitter和传统媒体报道中的语义网络,发现Twitter中的斯诺登与泄密者、个人隐私、反税运动等语义网络联系,呈现为一个“英雄”;而传统媒体中的斯诺登则与国土安全及反恐框架联系起来,呈现为一个“叛徒”。抑或通过不同的方法分析的文本数据的结果,探究更为优化的算法。例如,Guo等人对2012年美国总统大选的同一数据进行两种大数据方法的研究——词库分析和主题模型,为计算机辅助新闻传播研究(尤其政治传播研究)进行效度评估提供了方法论上的对比。(41)

“解释型”研究则分为几种情况:一种是用其他变量来解释文本的内容情感特征何以形成,例如,Montiel等人对于中国和菲律宾两国媒体对于黄岩岛事件的报道的文本分析,解释了两国报道不同的报道框架和形成该报道框架的政治层面的原因;(42)另一种是用文本的内容情感特征来与其他变量进行关联,赋予文本解释的力量,如欧洲、美国均有许多研究通过对网络民意的情感分析来判断或预测选举中候选人的得票情况。在科技、环境传播领域,相关的研究更多论述了如何将该技术(结论)应用到实际,例如,Sachdeva、McCaffrey和Locke的研究,针对推特文本的挖掘发现,在缺少环境监测部门的数据时,可以利用推特文本对火灾发生地的空气质量,尤其是PM2.5的浓度进行监测,对现实的环境改善意义较大。(43)所以,计算机文本挖掘的结果,常常会服务于传统的统计分析方法,与用户的特征行为,社会、媒体等外界环境变量结合。这种倾向,也体现了社会科学研究关注现实问题、追求理论创新的特色。

文本挖掘作为计算社会科学的重要方法,无论从范式、方法,还是工具上,对新闻传播学领域,乃至对整个社会科学领域都带来了巨大的进步和变化。文本挖掘技术作为数据驱动型的范式,从“自上而下”的演绎逻辑逐渐转向“自下而上”归纳逻辑,(44)也为定量实证研究提供了重要的工具。相比传统方法,文本挖掘在社会科学中具有以下优势:第一,可以对海量文本进行处理和整体趋势挖掘,既可以减少抽样带来的误差,又适合于新媒体时代对海量信息的处理;第二,文本挖掘可以帮助研究者发现一些隐藏的结论,如通过文本挖掘,可以探知人的语言特征和性格;第三,文本挖掘技术能够解决以往人工难以解决的问题,比如语义之间的关系、概念之间关系;(45)第四,将文本数据与网络痕迹数据对应起来,使得文本的内容能够与文本的生产者进行有机结合。相对于自我报告的调查数据,基于自然语言的文本挖掘处理的是不受主观意志干扰的内容,从而能更加科学、客观地发现人类的语言与他们的情感、观点、态度和行为之间的关系。

然而,计算机文本挖掘技术的应用也存在一些问题。第一,文本挖掘技术处于开发发展阶段,仍有很多研究者在追求更加精准的算法,很多论文都是对不同算法的演练和比较;第二,受到挖掘算法、语料库质量和数据质量的影响,有时即使运用了文本挖掘方法,也达不到预期的效果;第三,计算机文本分析的缺陷在于无法达到人脑对文本解读所能达到的细腻深刻程度,无论是情感判断,还是主题建模、语义网络分析,都只能呈现文本的概貌,这一先天不足使得基于人工编码的传统内容分析以及质化的语义分析,仍然有其存在的价值;第四,在国外大量使用文本挖掘方法的传播学研究并未发表在传播学期刊上,主流的传播学期刊虽然正在逐渐接纳以大数据为基础的经验研究,但总量依然不大,致使许多优秀成果散落在社会学、政治学、计算机或者其他交叉学科的期刊上,使得本学科的学术成果并不集中,在计算社会科学方兴未艾的局势下,“计算传播学”的先驱学者们缺少彰显学科归属的平台集中亮相研究成果;第五,从研究思路来看,国内新闻传播研究集中在理论思辨和传统的社会科学实证研究领域,大部分学者缺乏计算社会科学的思维和方法训练。而计算机文本挖掘对学者的知识与技术储备要求较高,未来这一研究路径是否能在传播学领域大放异彩、是否能取得具有理论突破意义的研究成果、是否能为解决社会问题提供独特价值,仍需要长期的努力。


网络客服QQ: 沈编辑

投诉建议:0373-5939925    投诉建议QQ:

招聘合作:2851259250@qq.com (如您是期刊主编、文章高手,可通过邮件合作)

地址:河南省新乡市金穗大道东段266号中州期刊联盟 ICP备案号:豫ICP备2020036848

【免责声明】:中州期刊联盟所提供的信息资源如有侵权、违规,请及时告知。

版权所有:中州期刊联盟(新乡市博翰文化传媒有限公司)

关注”中州期刊联盟”公众号
了解论文写作全系列课程

核心期刊为何难发?

论文发表总嫌贵?

职院单位发核心?

扫描关注公众号

论文发表不再有疑惑

论文写作全系列课程

扫码了解更多

轻松写核心期刊论文

在线留言