基于Web日志的浏览兴趣度分析技术研究
作者:尹立民来源:原创日期:2013-12-25人气:827
Web日志挖掘就是运用数据挖掘的思想来对服务器日志进行分析处理,解决网络用户的个性化服务问题。目前人们已经在Web信息个性化服务的一些基本问题的研究工作上取得了一些成果,但如何将解决这些基本问题的方法有机地结合起来,以实现Web个性化服务,有必要继续研究。
1 Web日志挖掘技术
1.1 Web挖掘基本概念及应用 Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。通过Web挖掘,可以发现潜在客户,延长客户的驻留时间,改进站点设计等。
1.2 Web日志的挖掘过程 Web日志挖掘过程一般是预处理阶段、挖掘算法、模式分析。数据预处理阶段主要包括数据清洗、用户识别、会话识别几个步骤。阶段流程如图1所示。
2 基于用户浏览行为的挖掘实现
在目前已有的数据挖掘的实现方式中,主要有用户端实现和服务器端实现两种方式。服务器端实现的方式主要是从服务器端的日志文件中获取浏览信息。这种方式主要有以下缺点:①利用缓存进行的访问在服务器端不被记录;用户按后退键,利用本地缓存浏览以前访问过的页面占用户所有浏览行为的30%。②当用户通过代理进行浏览时只能通过用户注册的方式获取用户身份标志。③在代理中,只能找到用户浏览了哪些网页,不能准确地知道用户对其的浏览时长。④服务器负担重。如何将解决这些基本问题的方法有机地结合起来,以实现Web个性化服务,还较少提出过完整的解决方案,有必要继续在这一方面进行研究。
3 利用线性回归预测方法预测页面浏览兴趣度
3.1 Web日志页面浏览兴趣度分析研究的“微差” 如何有效地表达用户浏览兴趣是Web日志模式挖掘研究的方向之一。页面兴趣度的计算并不是一个新的课题,目前许多Web个性化推荐系统都涉及到页面兴趣度的计算。根据计算得到页面兴趣度,应用数据挖掘技术获得用户的兴趣模型,但这些计算方法都存在不足。
基于以上分析,提出了利用线性回归预测方法预测页面浏览兴趣度。回归分析不仅能确定待估参数,还能对回归的有效性(显著性)、估计误差及待估参数的相关性做出定量描述。线性回归预测方法为:根据历史的样本数据,建立多元线性回归的预测模型,从而在不需要未来样本数据的情况下,预测未来时刻多元线性回归模型中的回归参数,以及主要的模型精度评估指标。
3.2 兴趣度线性回归方程设计 利用线性回归方程计算兴趣度关键是通过已有的兴趣度,访问次数,访问时间和接收字节数求出回归系数,其中访问次数,访问时间和接收字节数可通过Log得到。根据线性回归模型,假设访问次数、访问时间和接收字节数与页面浏览兴趣度线性相关,线性方程建立如下:兴趣度=α*访问次数+β*访问时间+γ*接收字节数+ε,其中α、β、γ、ε为回归系数。兴趣度主观设定为:很感兴趣,一般感兴趣,偶尔感兴趣和不感兴趣。具体说明如下:在特定的时间内和特定的网页范围内,对于一个页面,若访问次数,访问时间和接收字节数大于等于平均值的1.5,则认为是很感兴趣的,兴趣度最小值设为80;若访问次数,访问时间和接收字节数大于等于平均值的0.8,则认为是一般感兴趣的,兴趣度最小值设为40;若访问次数,访问时间和接收字节数大于等于平均值的0.4,则认为是偶尔感兴趣的,兴趣度最小值设为20;若访问次数,访问时间和接收字节数小于平均值的0.4,则认为是不感兴趣的,兴趣度最小值设为10。
3.3 利用线性回归方程求解兴趣度 根据LINEST(known_y's,known_x's,const,stats)函数要求,把数据α=3.247829、β=0.228428、γ=0.194637、ε=11.39658带入到:兴趣度=α*访问次数+β*访问时间+γ*接收字节数+ε中,从而得出页面兴趣度回归方程:
兴趣度=11.39658+3.247829*访问次数+0.228428*访问时间+0.194637*接收字节数,记为:兴趣度=11.39658+3.247829*count+0.228428*time+0.194637*sbs。
3.4 实验结果分析 通过利用线性回归方程计算出的兴趣度值与设定的兴趣度值进行比较,易发现兴趣度值几乎吻合,误差很小,而且数据计算精度高。
由表1数据偏差值的统计数据,易初步判断本实验建立的线性模型“兴趣度=α*访问次数+β*访问时间+γ*接收字节数+ε”准确,下面进行理论证明。证明方法:利用方程的显著性检验——F检验,判定访问次数、访问时间和接收字节数与页面浏览兴趣度的相关性程度,进而准确判定线性模型准确与否。证明:由回归系数不难看出回归平方和ESS=4981.081,误差平方和RSS=1162.919。由Table1:原始数据表A,B页面,易得出总记录数n=25,自变量个数k=3。所以利用方程显著性检验——F检验公式:F=(ESS/k)/(RSS/(n-k-1))可求出统计量F的数值为F=29.9828。给定显著性水平α=0.05,利用查F-分布表可得到临界值Fα(k,n-k-1)=F0.05(3,21)=3.07。显然F>Fα(k,n-k-1),所以可判定原方程兴趣度=α*访问次数+β*访问时间+γ*接收字节数+ε总体上的线性关系在95%的水平下显著成立,模型准确。
实验和理论同时表明,通过线性回归预测方法预测浏览兴趣度,兴趣度由线性回归方程求出,相对于“兴趣度=(访问次数*访问时间)/接收字节数”这个公式来说,由于考虑的因素更多,建立的线性回归模型更准确,所以求得的结果更精确,并且具有预见性。需要指出的是,本实验所提出的利用线性回归模型预测页面浏览兴趣度的方法还有很大的理论探讨空间。此外,本实现的设定兴趣度值是作者主观设定的,是否具有说服力还需进一步探讨。改进的思想是:兴趣度设定为三类,重新确定回归系数。
通过线性回归预测方法预测页面浏览兴趣度,是可行的并且具有较好的效果。
4 结束语
本文研究的是Web日志挖掘,希望通过Web日志分析研究浏览兴趣度。研究的主要工作是:建立兴趣度的线性回归方程,求出线性回归系数α、β、γ、ε,预测网站浏览兴趣度。随着互联网的发展,Web服务的个性化趋势已成必然,对浏览兴趣度的分析势必将成为分析浏览路径的一个越来越重要的依据。以后的研究应综合考虑各种因素,这样挖掘出的用户兴趣模型会更准确。
1 Web日志挖掘技术
1.1 Web挖掘基本概念及应用 Web挖掘指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。通过Web挖掘,可以发现潜在客户,延长客户的驻留时间,改进站点设计等。
1.2 Web日志的挖掘过程 Web日志挖掘过程一般是预处理阶段、挖掘算法、模式分析。数据预处理阶段主要包括数据清洗、用户识别、会话识别几个步骤。阶段流程如图1所示。
2 基于用户浏览行为的挖掘实现
在目前已有的数据挖掘的实现方式中,主要有用户端实现和服务器端实现两种方式。服务器端实现的方式主要是从服务器端的日志文件中获取浏览信息。这种方式主要有以下缺点:①利用缓存进行的访问在服务器端不被记录;用户按后退键,利用本地缓存浏览以前访问过的页面占用户所有浏览行为的30%。②当用户通过代理进行浏览时只能通过用户注册的方式获取用户身份标志。③在代理中,只能找到用户浏览了哪些网页,不能准确地知道用户对其的浏览时长。④服务器负担重。如何将解决这些基本问题的方法有机地结合起来,以实现Web个性化服务,还较少提出过完整的解决方案,有必要继续在这一方面进行研究。
3 利用线性回归预测方法预测页面浏览兴趣度
3.1 Web日志页面浏览兴趣度分析研究的“微差” 如何有效地表达用户浏览兴趣是Web日志模式挖掘研究的方向之一。页面兴趣度的计算并不是一个新的课题,目前许多Web个性化推荐系统都涉及到页面兴趣度的计算。根据计算得到页面兴趣度,应用数据挖掘技术获得用户的兴趣模型,但这些计算方法都存在不足。
基于以上分析,提出了利用线性回归预测方法预测页面浏览兴趣度。回归分析不仅能确定待估参数,还能对回归的有效性(显著性)、估计误差及待估参数的相关性做出定量描述。线性回归预测方法为:根据历史的样本数据,建立多元线性回归的预测模型,从而在不需要未来样本数据的情况下,预测未来时刻多元线性回归模型中的回归参数,以及主要的模型精度评估指标。
3.2 兴趣度线性回归方程设计 利用线性回归方程计算兴趣度关键是通过已有的兴趣度,访问次数,访问时间和接收字节数求出回归系数,其中访问次数,访问时间和接收字节数可通过Log得到。根据线性回归模型,假设访问次数、访问时间和接收字节数与页面浏览兴趣度线性相关,线性方程建立如下:兴趣度=α*访问次数+β*访问时间+γ*接收字节数+ε,其中α、β、γ、ε为回归系数。兴趣度主观设定为:很感兴趣,一般感兴趣,偶尔感兴趣和不感兴趣。具体说明如下:在特定的时间内和特定的网页范围内,对于一个页面,若访问次数,访问时间和接收字节数大于等于平均值的1.5,则认为是很感兴趣的,兴趣度最小值设为80;若访问次数,访问时间和接收字节数大于等于平均值的0.8,则认为是一般感兴趣的,兴趣度最小值设为40;若访问次数,访问时间和接收字节数大于等于平均值的0.4,则认为是偶尔感兴趣的,兴趣度最小值设为20;若访问次数,访问时间和接收字节数小于平均值的0.4,则认为是不感兴趣的,兴趣度最小值设为10。
3.3 利用线性回归方程求解兴趣度 根据LINEST(known_y's,known_x's,const,stats)函数要求,把数据α=3.247829、β=0.228428、γ=0.194637、ε=11.39658带入到:兴趣度=α*访问次数+β*访问时间+γ*接收字节数+ε中,从而得出页面兴趣度回归方程:
兴趣度=11.39658+3.247829*访问次数+0.228428*访问时间+0.194637*接收字节数,记为:兴趣度=11.39658+3.247829*count+0.228428*time+0.194637*sbs。
3.4 实验结果分析 通过利用线性回归方程计算出的兴趣度值与设定的兴趣度值进行比较,易发现兴趣度值几乎吻合,误差很小,而且数据计算精度高。
由表1数据偏差值的统计数据,易初步判断本实验建立的线性模型“兴趣度=α*访问次数+β*访问时间+γ*接收字节数+ε”准确,下面进行理论证明。证明方法:利用方程的显著性检验——F检验,判定访问次数、访问时间和接收字节数与页面浏览兴趣度的相关性程度,进而准确判定线性模型准确与否。证明:由回归系数不难看出回归平方和ESS=4981.081,误差平方和RSS=1162.919。由Table1:原始数据表A,B页面,易得出总记录数n=25,自变量个数k=3。所以利用方程显著性检验——F检验公式:F=(ESS/k)/(RSS/(n-k-1))可求出统计量F的数值为F=29.9828。给定显著性水平α=0.05,利用查F-分布表可得到临界值Fα(k,n-k-1)=F0.05(3,21)=3.07。显然F>Fα(k,n-k-1),所以可判定原方程兴趣度=α*访问次数+β*访问时间+γ*接收字节数+ε总体上的线性关系在95%的水平下显著成立,模型准确。
实验和理论同时表明,通过线性回归预测方法预测浏览兴趣度,兴趣度由线性回归方程求出,相对于“兴趣度=(访问次数*访问时间)/接收字节数”这个公式来说,由于考虑的因素更多,建立的线性回归模型更准确,所以求得的结果更精确,并且具有预见性。需要指出的是,本实验所提出的利用线性回归模型预测页面浏览兴趣度的方法还有很大的理论探讨空间。此外,本实现的设定兴趣度值是作者主观设定的,是否具有说服力还需进一步探讨。改进的思想是:兴趣度设定为三类,重新确定回归系数。
通过线性回归预测方法预测页面浏览兴趣度,是可行的并且具有较好的效果。
4 结束语
本文研究的是Web日志挖掘,希望通过Web日志分析研究浏览兴趣度。研究的主要工作是:建立兴趣度的线性回归方程,求出线性回归系数α、β、γ、ε,预测网站浏览兴趣度。随着互联网的发展,Web服务的个性化趋势已成必然,对浏览兴趣度的分析势必将成为分析浏览路径的一个越来越重要的依据。以后的研究应综合考虑各种因素,这样挖掘出的用户兴趣模型会更准确。
热门排行
推荐信息
期刊知识
- 2025年中科院分区表已公布!Scientific Reports降至三区
- 官方认定!CSSCI南大核心首批191家“青年学者友好期刊名单”
- 2023JCR影响因子正式公布!
- 国内核心期刊分级情况概览及说明!本篇适用人群:需要发南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的学者
- 我用了一个很复杂的图,帮你们解释下“23版最新北大核心目录有效期问题”。
- 重磅!CSSCI来源期刊(2023-2024版)最新期刊目录看点分析!全网首发!
- CSSCI官方早就公布了最新南核目录,有心的人已经拿到并且投入使用!附南核目录新增期刊!
- 北大核心期刊目录换届,我们应该熟知的10个知识点。
- 注意,最新期刊论文格式标准已发布,论文写作规则发生重大变化!文字版GB/T 7713.2—2022 学术论文编写规则
- 盘点那些评职称超管用的资源,1,3和5已经“绝种”了