基于E⁃Learning的移动学习推荐系统研究
随着在线学习的实时化和移动化发展,用户可通过移动终端随时随地地学习。数字资源的快速增长,给用户在移动终端上有效获取所需的资源带来了困扰,因此实时有效的学习资源推荐对于E-Learning平台非常重要。随着平台的发展,学习资源越来越丰富,涉及到大量的学科、类型和主题,如何使用户在海量的学习资源中快速获取到当前时刻、地点所需的学习资源越来越困难。
本文以某电力集团内部的E-Learning移动学习平台的真实数据作为研究对象,结合用户和行业特征,提出了一种集成用户社交网络、资源关联关系、用户行为特征和时空感知的移动推荐框架,通过用户、资源、社交、时空等之间的分布特征关联来优化评价的概率矩阵分解方法,从而实现高效的移动推荐。
推荐系统的发展已经经历了近20年的时间,然而由于用户选择资源的不确定性,在不同的应用环境下推荐方法的性能存在很大的区别[
随着基于网络的社交应用的广泛使用,社会化推荐系统成为了推荐系统领域的重要研究方法之一,社会化推荐系统在社会化网络分析理论的基础上,将用户社会属性信息加权融合到传统推荐系统中,在缓解传统推荐系统中数据稀疏性及冷启动问题的同时,还提高了推荐系统的性能。典型的社会化推荐生成方法主要包括基于网络图模型的推荐方法、矩阵分解方法、因子分解机模型、概率模型等。基于网络图模型的推荐方法将用户-项目评分网络图结构及用户之间社会关系网络图的基本特征应用到推荐系统中,例如基于图结构的推荐方法[
矩阵分解方法[
作为解决社会化推荐系统中数据稀疏性及冷启动问题的有效方法之一,矩阵分解方法和概率模型是目前推荐系统中的主要研究方法。矩阵分解适合于基于大量的评分数据进行推荐的情况,文献[
文献[
由于某电力集团的移动学习平台具有区域性、时效性、用户分类性等特点,导致目前主流的推荐技术在该公司的移动学习平台上效果都不太良好,主要表现在以下几个方面:
1)具有关系的用户之间的兴趣相似度,除了与社交关系程度相关外,还依赖于行为上的相似度。具有同类学习需求的用户才能进行关联推荐,而不同类型的用户(例如领导和下属),即便关系亲密,其学习的兴趣往往差别很大。
2)学习内容具有时间敏感性。平台的学习往往是受学习计划或考试目标驱动的,具有一定的时效性,因此简单地利用以前的偏好来预测当前的偏好会带来误差。
3)学习兴趣具有区域差异性。由于移动平台的便利,所有的人员都可以随时随地学习,但统计表明,同样的个体在单位、家中、路上、户外所学习的内容具有明显差异。
4)学习资源的使用具有严重的稀疏性。由于平台从其他渠道阶段性批量引进了大量的课程,有许多课程从来没有被人关注过,很难被协同过滤。
研究发现,用户的社会属性信息对推荐预测结果的影响仅是一个方面,而上下文信息、时空信息和项目之间的关联都会影响到用户的选择,本文提出了基于上下文的移动混合概率矩阵分解社会化推荐模型(context-based mobile mixed matrix-factorization recommendation system of social networks,CMMSSN),该模型在概率矩阵分解的基础上,融合社交关系、行为关联、资源关联、上下文感知、时空信息,形成联合主题概率模型,实现有效的多样化推荐,并成功应用在某电力集团的E-Learning移动学习平台中。
1 问题模型
E-Learning环境下的移动学习推荐根据用户的特征偏好和行为记录、上下文信息、时空信息和用户社交网络来实时精确地推荐给用户最想要的学习资源。该问题的形式化描述如下:
学习平台中有m个用户和n个学习资源,分别表示为
用户-资源矩阵,表示用户选择资源的历史记录;表示大小为的实数矩阵;表示用户对资源的认可程度(评价),时表示用户还未选择过该资源。本文假定用户对资源的评价是隐式的。
根据用户的个人资料信息,每个用户可表示为
式中:t为用户的特征数量;为第k个特征的值。
根据用户间的社交关系,平台的社交网络可表示为,表示用户对用户的亲密程度,取值范围为[0,1],的取值根据用户之间的交互频率、支持程度来确定。
用户在使用移动终端登录学习平台时,其时空信息包括当前的位置信息(经纬度坐标)和时间信息(当前时刻),结合学习平台历史使用特征,用户时空信息可以扩展为
式中:poi表示所在位置的标注点,包括办公地点、家和户外等类型;time表示早上、上午、中午、下午、晚上、深夜等时间;week表示星期;day表示日期。每个特征都为离散性数据。
用户使用移动终端学习平台时的上下文信息包括各类环境和条件信息,表示为
式中:device表示设备信息;page表示当前页面;sourcepage表示来源页面;c表示当前正在观看的学习资源。
本文所要解决的推荐问题可以表示为:在移动学习平台中,在时空信息根据用户间的社交关系G和历史评价记录E,以及上下文信息推荐给用户的n个学习资源,即,满足集合中的各学习资源在当前状态下的预测打分最大。
2 模型求解
传统的推荐问题仅考虑到用户的社交关系和用户的历史评价信息,忽略了移动时空环境和上下文环境的信息。本文提出一种基于多元高斯分布的概率矩阵混合分解框架,该框架以用户评分矩阵分解为基础,用2个低维潜在特征矩阵来表示用户和学习资源,同时融入用户间的关联关系、学习资源间的关联关系、用户的特征信息、上下文信息和时空信息,从而实现精确、动态的学习资源推荐。
m个用户和n个学习资源的d维特征矩阵可以表示为和,其列向量和分别表示用户和学习资源的潜在特征向量。由于用户的可观测评分由概率线性模型和高斯观测噪声组成,因此评价矩阵的条件概率分布P可以定义为
(1) |
式中:表示服从均值为、方差为的高斯分布,σE为评分的均方差;为指示函数,表示如果用户对学习资源进行了评分,其值为1,否则为0。因此求解d维特征矩阵可以转化为以下优化问题:
式中:σU、σC分别为用户特征和学习资源特征的均方差。
为将多种信息和关联融合、增加用户兴趣表示,本文提出了基于上下文的移动混合概率矩阵分解社会化推荐模型CMMSSN。模型通过用户兴趣选择的先验概率将隐含狄利克雷分布模型(latent dirichlet allocation,LDA)和PMF进行有效融合,能够识别潜在的主题信息和隐藏语义。CMMSSN模型如
图1 LDA-PMF模型
Fig.1 LDA-PMF model
2.1 基于社交关系的推荐
学习平台中的用户社交关系是由单向边组成的图,为矩阵的第i行,表示用户所关注用户的权重向量:
为矩阵的第j列,表示用户所关注用户的权重向量:
数据分析表明,用户的兴趣喜好与其社交关系亲密的朋友具有更多的相似性。将用户分为以下3个集合:
1)表示主动关系的用户对集合:
2)表示被动关系的用户对集合:
3)表示双向关系的用户对集合:
3个集合中用户间的关系满足以下分布:
(3) |
(4) |
(5) |
式中:为用户ui和uj在历史评价上的相似度,即
(6) |
式中:表示用户i的评价向量;表示用户j的评价向量;k=1,2,…,n。
2.2 基于用户行为特征的推荐
统计规律表明,用户的行为特征与资源的偏好存在关联,用户和在行为特征上的相似度可以表示为
(7) |
式中:、分别为用户、uj在特征k上的值,该相似度为文本相似度[
用户在历史评价上的相似度与用户特征间的相似度服从正态分布,即
(8) |
式中:m为在历史评价中用户、具有相同评价资源的数量。由
(9) |
2.3 基于资源关联和上下文的推荐
资源间的逻辑蕴含关系是上下文推荐的主要依据,资源间的关系矩阵可以表示为。
表示资源到资源的转移概率,即
(10) |
式中:为用户i对资源j的评价;为有过资源使用记录的用户集合;为用户在访问资源后访问的资源集合;ck为资源集合中的某一个资源;为用户访问资源后再访问资源k的单位时间。
对于用户,在已知其历史资源选择记录的情况下,当前对资源评分的概率服从以下分布:
(11) |
2.4 基于时空环境的移动推荐
与传统推荐不同,移动教学平台提供随时随地的资源服务,用户在不同的时刻和位置对资源的需求不同,所有用户在时刻和位置选择资源的概率为
(12) |
式中:为用户选择资源的时间与的单位距离;为用户选择资源的位置与的单位距离。
用户在时刻和位置选择资源的概率为
(13) |
3 试验分析
本文使用某电力集团公司的移动学习平台GDcourse中的真实用户和资源进行验证,将本文所研究的移动推荐算法应用在电力学习资源的实时推荐中。
3.1 数据集
选择2014—2016年的用户数据、资源数据、选择和评论数据、社交关系数据、登录记录等数据,最终得到电力学习平台的基本信息:资源数为15 361,用户数为98 413,用户关系数为345 671,历史选择记录数为225 236,带时空的登录记录数为142 364。
资源的选择矩阵E的数据来自于用户对资源的阅读日志数据库,用户对资源的评价值根据阅读的情况进行计算,计算方式如下:
1)如果从未阅读,则
2)如果对一个时长为T的资源进行了k次阅读,阅读时间为{t1,t2,…,tk},则
3)如果对一个时长为T的资源阅读时间t<T/10,且在这个阅读行为后5 min内阅读了其他资源,表明用户对该资源隐式负评价,则在原来的基础上减去t/T。
最后对进行汇总后,再对所有的E进行标准化处理,使得E分布在[0,1]区间内。
阅读日志中有一部分是通过手机进行阅读,带有poi信息。为了对试验中所有的阅读日志统一进行处理,对于缺失时空数据的记录,在对
3.2 评价指标
为分析本文算法的精度,试验采用2个通用评估指标来度量本文算法的准确性:均方根误差(root mean square error,RMSE)和平均绝对误差(mean absolute error,MAE)。均方根误差反映误差的离散程度,平均绝对误差反映预测值误差的实际情况。
(16) |
(17) |
式中:为测试集,表示测试集中用户-资源数据对的数量;为根据本文方法预测得到的用户评分。RMSE和MAE越小,说明方法越精确。
3.3 比较方法
为了分析比较本文方法的推荐性能,在同样的数据集上使用相关的主流方法进行推荐,主要方法包括:
1)ContextMF[
2)CTRSTE[
3)OntologyMF[
4)TrustSVD[
5)EURB[
3.4 试验设计
为了全面测试本文提出的算法在一般情况和稀疏数据时的表示,对近3年来的数据通过不同的策略从不同的角度进行测试,以验证本文算法的有效性。
1)不同稀疏度的测试。采用交叉验证方法来测试不同训练集对性能的影响。具体来说,就是将数据集随机分为10等份,测试时从其中随机选择m份作为训练集进行测试,剩下的作为测试数据。每类测试重复进行5次,每次都是重新随机抽取训练集。将最终得到的RSME和MAE指标进行平均,作为算法的评估标准,从而保证算法验证的可靠性。不同稀疏度的测试对不同的m取值分别进行试验,在本试验中m分别取3、5、8三种情况来验证不同稀疏度的性能,具体结果如
数据集大小 | 指标 | Context MF | CTRSTE | OntologyMF | TrustSVD | EURB | CMMSSN | |
---|---|---|---|---|---|---|---|---|
30% | RMSE | k=5 | 0.661 | 0.664 | 0.740 | 0.659* | 0.659 | 0.642 |
k=10 | 0.660 | 0.659 | 0.717 | 0.630* | 0.658 | 0.613 | ||
MAE | k=5 | 0.533 | 0.536 | 0.586 | 0.529* | 0.531 | 0.528 | |
k=10 | 0.500 | 0.499 | 0.573 | 0.511 | 0.499* | 0.492 | ||
50% | RMSE | k=5 | 0.655 | 0.658 | 0.724 | 0.642* | 0.653 | 0.633 |
k=10 | 0.628 | 0.628 | 0.707 | 0.636 | 0.626* | 0.606 | ||
MAE | k=5 | 0.516 | 0.517 | 0.566 | 0.501* | 0.514 | 0.492 | |
k=10 | 0.514 | 0.512 | 0.562 | 0.493* | 0.512 | 0.485 | ||
80% | RMSE | k=5 | 0.641 | 0.638 | 0.703 | 0.619 | 0.638* | 0.599 |
k=10 | 0.641 | 0.640 | 0.699 | 0.639 | 0.638* | 0.599 | ||
MAE | k=5 | 0.503 | 0.503 | 0.561 | 0.510 | 0.501* | 0.496 | |
k=10 | 0.489 | 0.488 | 0.554 | 0.499 | 0.487* | 0.480 |
注: *表示所有其他方法中的最佳性能。
2)不同特征矩阵维度的测试。特征矩阵U和C的维度反映用户和资源的隐含特征数量,该值都是通过经验来设置,本文试验验证了维度d取5和10两种情况下在各个训练过程中的表现,分析了维度k对性能的影响。
3.5 试验结果
本文试验将电力移动教学平台中的用户-资源历史评分数据进行交叉验证,分别选取不同的数据集大小(30%、50%、80%)作为训练集,其他的作为测试集进行验证。低维特征矩阵的维度k分别取5和10。本文方法与其他算法的RMSE和MAE指标比较如
试验结果表明:
1)用户间的社交关系能提高推荐的性能, 尤其是在训练集不足的情况下效果更明显。例如CMMSSN、TrustSVD、EURB等方法在训练集较小时推荐性能明显优于context MF、CTRSTE、OntologyMF等方法。
2)训练集越大预测的性能就越好,这说明CMMSSN方法没有出现过拟合的情况。另外CMMSSN在50%的训练集时已经比较接近最优的效果,说明CMMSSN通过社交网络和移动上下文特征降低了对训练集的依赖。
3)本文的CMMSSN方法在精度和扩展性上都优于其他方法。
4 总结
本文针对某电力集团公司的移动在线学习平台中的资源推荐问题,展开了深入的理论分析和试验研究。学习平台中的用户对学习资源的喜好问题与传统的推荐问题不同,不仅依赖于个人偏好和兴趣特征,且会随着学习经历的变化而发生改变,同时移动设备所在的时空环境与上下文信息也会影响用户对资源的选择。
本文以概率矩阵模型为基础,以先验概率分布建立社交关系、行为特征、资源关联、时空环境与用户评价的分布关系,并通过联合概率分布融入到概率矩阵模型中进行优化,从而得到更为精确的用户与项目的潜在特征矩阵,实现了基于移动环境的实时学习资源推荐问题。试验结果表明,本文提出的方法在移动学习资源平台中具有良好的效果。
推荐问题涉及到的因素很多且具有动态变化的特点,本文的研究和试验都是在静态数据中进行分析和验证,在动态环境下可能会有漂移情况,在今后的研究中,将会针对推荐平台中更深入的问题展开研究。
- 2025年中科院分区表已公布!Scientific Reports降至三区
- 官方认定!CSSCI南大核心首批191家“青年学者友好期刊名单”
- 2023JCR影响因子正式公布!
- 国内核心期刊分级情况概览及说明!本篇适用人群:需要发南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的学者
- 我用了一个很复杂的图,帮你们解释下“23版最新北大核心目录有效期问题”。
- 重磅!CSSCI来源期刊(2023-2024版)最新期刊目录看点分析!全网首发!
- CSSCI官方早就公布了最新南核目录,有心的人已经拿到并且投入使用!附南核目录新增期刊!
- 北大核心期刊目录换届,我们应该熟知的10个知识点。
- 注意,最新期刊论文格式标准已发布,论文写作规则发生重大变化!文字版GB/T 7713.2—2022 学术论文编写规则
- 盘点那些评职称超管用的资源,1,3和5已经“绝种”了