web挖掘技术在竞争情报活动中的应用浅析-科技论文
作者:马奎林来源:原创日期:2012-07-16人气:1080
web内容挖掘。Web内容挖掘是一种基于网页内容的web挖掘。是从大量的web数据中发现信息、抽取知识的过程。这些数据既有文本数据,也有图像、声频、音频等多媒体数据,既有来自于数据库的结构化数据,也有用HTML标记的半结构化数据和无结构的自由文本。
(二)web结构挖掘。Web结构挖掘是从www的组织结构和连接关系中推导知识。Web结构挖掘通过分析一个网页链接和被链接数量以及对象,建立web自身的连接结构模式。这种模式可以用于网页归类,并且可以由此获得不同网页间相似度和关联度的信息。Web结构挖掘有助于用户找到相关主题的权威站点,并且可以指向众多权威站点的相关主题站点。
(三)web使用挖掘。除了web内容和web链接结构以外,web挖掘的另一个重要任务是对web使用记录进行挖掘。Web内容挖掘和web结构挖掘的对象是网上的原始数据,而web使用记录的挖掘则与此不同,它面对的是在用户和网络交互的过程中抽取出来的第二手数据。它通过挖掘web日志记录和相关数据,从而发现用户访问web页面的模式。
三、Web挖掘技术研究
(一)Web内容挖掘实现技术。Web内容挖掘主要体现为对web文本的挖掘,包括对文本内容的总结、分类、聚类机关联分析等。1.文本总结。其目的是对文本信息进行浓缩,给出它的紧凑描述。文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。2.文本分类。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型,即通常所说的分类器。分类器一般分为训练和分类两个阶段。3.文本聚类。文本聚类是一种典型的无教师的机器学习问题。目前的文本聚类方法大致可以分为层次凝聚法和平面划分法两种类型。聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。4.关联规则。关联规则模式数据描述型模式,发现关联规则的算法属于无监督学习的方法。发现关联规则通常要经过以下3个步骤:连接数据,做数据准备;给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;可视化显示、理解、评估关联规则。
(二)用户使用记录挖掘实现技术。在挖掘Web用户使用记录时描述用户访问的数据包括:IP地址、参考页面、访问日期和时间、用户Web站点及配置信息。这些数据可以来自于服务器端、客户端、代理服务器端或者是公司的数据库。
发现用户使用记录信息的方法有两种。一种方法是通过对日志文件进行分析,包含两种方式,是访问前先进行预处理,即将日志数据映射为关系表并采用相应的数据挖掘技术,如关联规则或聚类技术来访问日志数据;二是对日志数据进行直接访问以获取用户的导航信息。另一种方法是通过对用户点击事件的搜集和分析发现用户导航行为。
四、Web挖掘在竞争情报系统中的应用
(一)利用Web挖掘获取、开发和利用竞争对手和客户的信息。从Web挖掘技术的实现流程来看,Web挖掘不仅仅是像网络信息检索那样只是把符合查询要求的记录返回给用户,这样得到的结果集不仅数量庞大,而且包括很多不相关信息。正如前面所提到的,Web挖掘不仅能够从WWW的大量的数据中发现信息,而且它还能发现权威站点、有重要价值的“隐藏”信息,并且能够监视和预测用户的访问习惯、购买行为,并能够发现顾客购买模式趋势。
(二)挖掘Web日志记录来发现用户访问Web页面的模式。通过分析和探究web日志记录中的规律,可以识别电子商务的潜在客户,增强对最终用户的互联网信息服务的质量和交付,并改进Web服务器系统的性能。挖掘Web日志访问纪录,有助于聚类用户并将用户分门别类,以便实现个性化的市场服务.
(三)Web挖掘在反竞争情报活动中的应用。反竞争情报是企业竞争情报活动的重要组成部分,忽视竞争对手的竞争情报活动、低估竞争对手搜集竞争情报的能力势必导致企业失去已有的竞争优势。现在,已有越来越多的企业建立了自己的Web站点,企业上网已成为一股不可逆转的潮流。因此,对它进行监控是企业了解竞争对手的竞争情报活动的重要途径。在竞争情报计算机系统中,可以充分利用Web挖掘技术,通过运用分析访问者的IP地址、客户端历届域、信息访问路径等Web监控技术、统计敏感信息访问率等方法实现对竞争对手的防范,以达到识别竞争对手保护企业敏感性信息的目的。
总之,作为一种新型的信息处理与分析技术,web挖掘的确在竞争情报活动中具有巨大的应用潜力。充分运用web挖掘来发掘蕴藏在互联网上的竞争情报资源,将会为企业竞争力的提升提供强大的支持与动力。
(二)web结构挖掘。Web结构挖掘是从www的组织结构和连接关系中推导知识。Web结构挖掘通过分析一个网页链接和被链接数量以及对象,建立web自身的连接结构模式。这种模式可以用于网页归类,并且可以由此获得不同网页间相似度和关联度的信息。Web结构挖掘有助于用户找到相关主题的权威站点,并且可以指向众多权威站点的相关主题站点。
(三)web使用挖掘。除了web内容和web链接结构以外,web挖掘的另一个重要任务是对web使用记录进行挖掘。Web内容挖掘和web结构挖掘的对象是网上的原始数据,而web使用记录的挖掘则与此不同,它面对的是在用户和网络交互的过程中抽取出来的第二手数据。它通过挖掘web日志记录和相关数据,从而发现用户访问web页面的模式。
三、Web挖掘技术研究
(一)Web内容挖掘实现技术。Web内容挖掘主要体现为对web文本的挖掘,包括对文本内容的总结、分类、聚类机关联分析等。1.文本总结。其目的是对文本信息进行浓缩,给出它的紧凑描述。文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。2.文本分类。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型,即通常所说的分类器。分类器一般分为训练和分类两个阶段。3.文本聚类。文本聚类是一种典型的无教师的机器学习问题。目前的文本聚类方法大致可以分为层次凝聚法和平面划分法两种类型。聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。4.关联规则。关联规则模式数据描述型模式,发现关联规则的算法属于无监督学习的方法。发现关联规则通常要经过以下3个步骤:连接数据,做数据准备;给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;可视化显示、理解、评估关联规则。
(二)用户使用记录挖掘实现技术。在挖掘Web用户使用记录时描述用户访问的数据包括:IP地址、参考页面、访问日期和时间、用户Web站点及配置信息。这些数据可以来自于服务器端、客户端、代理服务器端或者是公司的数据库。
发现用户使用记录信息的方法有两种。一种方法是通过对日志文件进行分析,包含两种方式,是访问前先进行预处理,即将日志数据映射为关系表并采用相应的数据挖掘技术,如关联规则或聚类技术来访问日志数据;二是对日志数据进行直接访问以获取用户的导航信息。另一种方法是通过对用户点击事件的搜集和分析发现用户导航行为。
四、Web挖掘在竞争情报系统中的应用
(一)利用Web挖掘获取、开发和利用竞争对手和客户的信息。从Web挖掘技术的实现流程来看,Web挖掘不仅仅是像网络信息检索那样只是把符合查询要求的记录返回给用户,这样得到的结果集不仅数量庞大,而且包括很多不相关信息。正如前面所提到的,Web挖掘不仅能够从WWW的大量的数据中发现信息,而且它还能发现权威站点、有重要价值的“隐藏”信息,并且能够监视和预测用户的访问习惯、购买行为,并能够发现顾客购买模式趋势。
(二)挖掘Web日志记录来发现用户访问Web页面的模式。通过分析和探究web日志记录中的规律,可以识别电子商务的潜在客户,增强对最终用户的互联网信息服务的质量和交付,并改进Web服务器系统的性能。挖掘Web日志访问纪录,有助于聚类用户并将用户分门别类,以便实现个性化的市场服务.
(三)Web挖掘在反竞争情报活动中的应用。反竞争情报是企业竞争情报活动的重要组成部分,忽视竞争对手的竞争情报活动、低估竞争对手搜集竞争情报的能力势必导致企业失去已有的竞争优势。现在,已有越来越多的企业建立了自己的Web站点,企业上网已成为一股不可逆转的潮流。因此,对它进行监控是企业了解竞争对手的竞争情报活动的重要途径。在竞争情报计算机系统中,可以充分利用Web挖掘技术,通过运用分析访问者的IP地址、客户端历届域、信息访问路径等Web监控技术、统计敏感信息访问率等方法实现对竞争对手的防范,以达到识别竞争对手保护企业敏感性信息的目的。
总之,作为一种新型的信息处理与分析技术,web挖掘的确在竞争情报活动中具有巨大的应用潜力。充分运用web挖掘来发掘蕴藏在互联网上的竞争情报资源,将会为企业竞争力的提升提供强大的支持与动力。
热门排行
推荐信息
期刊知识
- 2025年中科院分区表已公布!Scientific Reports降至三区
- 官方认定!CSSCI南大核心首批191家“青年学者友好期刊名单”
- 2023JCR影响因子正式公布!
- 国内核心期刊分级情况概览及说明!本篇适用人群:需要发南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的学者
- 我用了一个很复杂的图,帮你们解释下“23版最新北大核心目录有效期问题”。
- 重磅!CSSCI来源期刊(2023-2024版)最新期刊目录看点分析!全网首发!
- CSSCI官方早就公布了最新南核目录,有心的人已经拿到并且投入使用!附南核目录新增期刊!
- 北大核心期刊目录换届,我们应该熟知的10个知识点。
- 注意,最新期刊论文格式标准已发布,论文写作规则发生重大变化!文字版GB/T 7713.2—2022 学术论文编写规则
- 盘点那些评职称超管用的资源,1,3和5已经“绝种”了