基于E⁃Learning的移动学习推荐系统研究

作者：姜国义刘海波杨倩倩李文震康凯乔卉梁志远来源：《武汉大学学报（工学版）》日期：2022-09-29人气：1354

随着在线学习的实时化和移动化发展，用户可通过移动终端随时随地地学习。数字资源的快速增长，给用户在移动终端上有效获取所需的资源带来了困扰，因此实时有效的学习资源推荐对于E-Learning平台非常重要。随着平台的发展，学习资源越来越丰富，涉及到大量的学科、类型和主题，如何使用户在海量的学习资源中快速获取到当前时刻、地点所需的学习资源越来越困难。

本文以某电力集团内部的E-Learning移动学习平台的真实数据作为研究对象，结合用户和行业特征，提出了一种集成用户社交网络、资源关联关系、用户行为特征和时空感知的移动推荐框架，通过用户、资源、社交、时空等之间的分布特征关联来优化评价的概率矩阵分解方法，从而实现高效的移动推荐。

推荐系统的发展已经经历了近20年的时间，然而由于用户选择资源的不确定性，在不同的应用环境下推荐方法的性能存在很大的区别^［1］。目前主流的推荐系统分为基于内容的推荐^［2］、协同过滤推荐^［3］、基于知识的推荐^［4］和组合推荐^［5］等4大类，其中协同过滤推荐包括基于模型的方法^［6］和启发式方法^［7］。

随着基于网络的社交应用的广泛使用，社会化推荐系统成为了推荐系统领域的重要研究方法之一，社会化推荐系统在社会化网络分析理论的基础上，将用户社会属性信息加权融合到传统推荐系统中，在缓解传统推荐系统中数据稀疏性及冷启动问题的同时，还提高了推荐系统的性能。典型的社会化推荐生成方法主要包括基于网络图模型的推荐方法、矩阵分解方法、因子分解机模型、概率模型等。基于网络图模型的推荐方法将用户-项目评分网络图结构及用户之间社会关系网络图的基本特征应用到推荐系统中，例如基于图结构的推荐方法^［8］和链接预测方法^［9］。

矩阵分解方法^［10］将用户-项目评分矩阵分解成2个或者多个低维矩阵的乘积实现维数的规约，用低维空间数据研究高维数据的性质，主要包括奇异值分解、非负矩阵分解和概率矩阵分解。概率模型^［11］以朴素贝叶斯定理为理论基础，将用户-项目的联合概率以及用户和项目概率作为模型学习参数。此外，在基于位置服务的社会化网络推荐系统中，概率模型也得到了广泛的应用，Yin等^［12］提出2种潜在类统计混合模型：时间上下文感知混合模型和位置内容感知概率混合生成模型，分别用于模拟时间、空间2种上下文因素对用户行为的影响，然后提出2种Top-n社会化网络推荐方法。

作为解决社会化推荐系统中数据稀疏性及冷启动问题的有效方法之一，矩阵分解方法和概率模型是目前推荐系统中的主要研究方法。矩阵分解适合于基于大量的评分数据进行推荐的情况，文献［13］在奇异值分解（singular value decomposition，SVD）的基础上加入用户的偏置，即独立于用户和物品的因素部分（例如用户的打分高低喜好等）提出了SVD++方法。概率矩阵分解（probabilistic matrix factorization，PMF）模型^［14］从概率生成的角度来解释用户和物品的隐含特征，PMF在SVD的基础上假设用户和物品的隐式特征向量服从高斯先验分布，通过最大化后验概率来求解用户和物品的隐式特征矩阵。贝叶斯个性化排序（Bayesian personalized ranking，BPR）算法^［3］针对用户的隐式反馈行为数据，将用户对物品行为（正反馈为1，无反馈为0）处理为1个Pair对的集合<i，j>，其中，i评分为1时表示有行为数据的物品，j评分为0时表示没有行为数据的物品。BPR方法基于Pair-Wise的偏序优化，可以避免Point-Wise模型在对无反馈行为涉及项目进行预测时失效（因为无反馈行为涉及项目在训练时全被标记为0）的问题。

文献［15］提出不直接计算物品和物品之间的相似性，将这种相似性转化为2个因子矩阵相乘，避免使用物品共现来学习物品相似矩阵，因为没有被用户同时下载的物品也可能是相似的。文献［16］将用户的各种社会网络关系融合到矩阵的优化分解过程中，提出社会化矩阵分解。上述方法都越来越成熟，有效融合了用户社交关系、物品关联关系、用户偏好，极大提高了社会化推荐性能。

由于某电力集团的移动学习平台具有区域性、时效性、用户分类性等特点，导致目前主流的推荐技术在该公司的移动学习平台上效果都不太良好，主要表现在以下几个方面：

1）具有关系的用户之间的兴趣相似度，除了与社交关系程度相关外，还依赖于行为上的相似度。具有同类学习需求的用户才能进行关联推荐，而不同类型的用户（例如领导和下属），即便关系亲密，其学习的兴趣往往差别很大。

2）学习内容具有时间敏感性。平台的学习往往是受学习计划或考试目标驱动的，具有一定的时效性，因此简单地利用以前的偏好来预测当前的偏好会带来误差。

3）学习兴趣具有区域差异性。由于移动平台的便利，所有的人员都可以随时随地学习，但统计表明，同样的个体在单位、家中、路上、户外所学习的内容具有明显差异。

4）学习资源的使用具有严重的稀疏性。由于平台从其他渠道阶段性批量引进了大量的课程，有许多课程从来没有被人关注过，很难被协同过滤。

研究发现，用户的社会属性信息对推荐预测结果的影响仅是一个方面，而上下文信息、时空信息和项目之间的关联都会影响到用户的选择，本文提出了基于上下文的移动混合概率矩阵分解社会化推荐模型（context-based mobile mixed matrix-factorization recommendation system of social networks,CMMSSN），该模型在概率矩阵分解的基础上，融合社交关系、行为关联、资源关联、上下文感知、时空信息，形成联合主题概率模型，实现有效的多样化推荐，并成功应用在某电力集团的E-Learning移动学习平台中。

1 问题模型

E-Learning环境下的移动学习推荐根据用户的特征偏好和行为记录、上下文信息、时空信息和用户社交网络来实时精确地推荐给用户最想要的学习资源。该问题的形式化描述如下：

学习平台中有m个用户 $U$ 和n个学习资源 $C$ ，分别表示为

用户-资源矩阵 $E \in R^{m \times n}$ ，表示用户选择资源的历史记录； $R^{m \times n}$ 表示大小为 $m \times n$ 的实数矩阵； $E_{i j}$ 表示用户 $u_{i}$ 对资源 $c_{j}$ 的认可程度（评价）， $E_{i j} = 0$ 时表示用户还未选择过该资源。本文假定用户对资源的评价是隐式的。

根据用户的个人资料信息，每个用户可表示为

式中：t为用户的特征数量； $v_{k}$ 为第k个特征的值。

根据用户间的社交关系，平台的社交网络可表示为 $G \in R^{m \times m}$ ， $G_{i j}$ 表示用户 $u_{i}$ 对用户 $u_{j}$ 的亲密程度，取值范围为［0，1］， $G_{i j}$ 的取值根据用户之间的交互频率、支持程度来确定。

用户在使用移动终端登录学习平台时，其时空信息包括当前的位置信息（经纬度坐标）和时间信息（当前时刻），结合学习平台历史使用特征，用户时空信息可以扩展为

式中：poi表示所在位置的标注点，包括办公地点、家和户外等类型；time表示早上、上午、中午、下午、晚上、深夜等时间；week表示星期；day表示日期。每个特征都为离散性数据。

用户使用移动终端学习平台时的上下文信息包括各类环境和条件信息，表示为

式中：device表示设备信息；page表示当前页面；sourcepage表示来源页面；c表示当前正在观看的学习资源。

本文所要解决的推荐问题可以表示为：在移动学习平台中，在时空信息 $T L$ 根据用户间的社交关系G和历史评价记录E，以及上下文信息 $C T$ 推荐给用户 $u_{i}$ 的n个学习资源，即 $E = {c_{1}, c_{2}, \dots, c_{n}}$ ， $E$ 满足集合中的各学习资源在当前状态下的预测打分 $E_{i j}$ 最大。

2 模型求解

传统的推荐问题仅考虑到用户的社交关系和用户的历史评价信息，忽略了移动时空环境和上下文环境的信息。本文提出一种基于多元高斯分布的概率矩阵混合分解框架，该框架以用户评分矩阵分解为基础，用2个低维潜在特征矩阵来表示用户和学习资源，同时融入用户间的关联关系、学习资源间的关联关系、用户的特征信息、上下文信息和时空信息，从而实现精确、动态的学习资源推荐。

m个用户和n个学习资源的d维特征矩阵可以表示为 $U \in R^{d \times m}$ 和 $C \in R^{d \times n}$ ，其列向量 $U_{i}$ 和 $C_{j}$ 分别表示用户 $u_{i}$ 和学习资源 $c_{j}$ 的潜在特征向量。由于用户的可观测评分由概率线性模型 $U_{i}^{T} C_{j}$ 和高斯观测噪声组成，因此评价矩阵 $E$ 的条件概率分布P可以定义为

(1)

式中： $N (E_{i j} | U_{i}^{T} C_{j}, σ_{E}^{2})$ 表示 $E_{i j}$ 服从均值为 $U_{i}^{T} C_{j}$ 、方差为 $σ_{E}^{2}$ 的高斯分布，σ_E为评分的均方差； $I_{i j}$ 为指示函数，表示如果用户 $u_{i}$ 对学习资源 $c_{j}$ 进行了评分，其值为1，否则为0。因此求解d维特征矩阵可以转化为以下优化问题：

式中：σ_U、σ_C分别为用户特征和学习资源特征的均方差。

为将多种信息和关联融合、增加用户兴趣表示，本文提出了基于上下文的移动混合概率矩阵分解社会化推荐模型CMMSSN。模型通过用户兴趣选择的先验概率将隐含狄利克雷分布模型（latent dirichlet allocation，LDA）和PMF进行有效融合，能够识别潜在的主题信息和隐藏语义。CMMSSN模型如图1所示。

图1 LDA-PMF模型

Fig.1 LDA-PMF model

图1中，社交关系 $G$ 和用户兴趣相似度 $S$ 构成的概率模型反映社交关系对潜变量矩阵 $U$ 的影响；σ_JO、σ_JI、σ_IO分别表示主动关系、被动关系、双向关系分布的均方差。用户行为相似度矩阵 $\hat{S}$ 构成的概率模型反映用户行为特征相似性对潜变量矩阵 $U$ 的影响；σ_S表示相似度分布的均方差；资源对象关联性矩阵 $D$ 构成的概率模型反映其对潜变量矩阵 $C$ 的影响；σ_D表示相关性分布的均方差；时间特性 $T$ 和空间特性 $L$ 构成的概率模型反映其对潜变量矩阵 $C$ 的影响。

2.1　基于社交关系的推荐

学习平台中的用户社交关系是由单向边组成的图 $G$ ， $G_{i *}$ 为矩阵 $G$ 的第i行，表示用户 $u_{i}$ 所关注用户的权重向量：

$G_{* j}$ 为矩阵 $G$ 的第j列，表示用户 $u_{j}$ 所关注用户的权重向量：

数据分析表明，用户的兴趣喜好与其社交关系亲密的朋友具有更多的相似性。将用户分为以下3个集合：

1） $J O$ 表示主动关系的用户对集合：

2） $J I$ 表示被动关系的用户对集合：

3） $I O$ 表示双向关系的用户对集合：

3个集合中用户间的关系满足以下分布：

(3)

(4)

(5)

式中： $S_{i j}$ 为用户u_i和u_j在历史评价上的相似度，即

\begin{array}{l}  \end{array}

(6)

式中： $E_{i *}$ 表示用户i的评价向量； $E_{j *}$ 表示用户j的评价向量；k=1，2，…，n。

2.2　基于用户行为特征的推荐

统计规律表明，用户的行为特征与资源的偏好存在关联，用户 $u_{i}$ 和 $u_{j}$ 在行为特征上的相似度 ${\hat{S}}_{i j}$ 可以表示为

(7)

式中： $v_{i k}$ 、 $v_{j k}$ 分别为用户 $u_{i}$ 、u_j在特征k上的值，该相似度为文本相似度^［17］。

用户在历史评价上的相似度与用户特征间的相似度服从正态分布，即

(8)

式中：m为在历史评价中用户 $u_{i}$ 、 $u_{j}$ 具有相同评价资源的数量。由式（8）可知，如果用户间共同评价的资源越多，评价上的相似性越趋近于特征上的相似性，因此有

(9)

2.3　基于资源关联和上下文的推荐

资源间的逻辑蕴含关系是上下文推荐的主要依据，资源间的关系矩阵可以表示为 $D \in R^{n \times n}$ 。

$D_{i j}$ 表示资源 $c_{i}$ 到资源 $c_{j}$ 的转移概率，即

(10)

式中： $E_{s j}$ 为用户i对资源j的评价； $U_{i}$ 为有过资源 $c_{i}$ 使用记录的用户集合； $C_{s, i}$ 为用户 $u_{s}$ 在访问资源 $c_{i}$ 后访问的资源集合；c_k为资源集合中的某一个资源； $Δ t_{i k}$ 为用户访问资源 $c_{i}$ 后再访问资源k的单位时间。

对于用户 $u_{s}$ ，在已知其历史资源选择记录的情况下，当前对资源评分的概率服从以下分布：

(11)

2.4　基于时空环境的移动推荐

与传统推荐不同，移动教学平台提供随时随地的资源服务，用户在不同的时刻和位置对资源的需求不同，所有用户在时刻 $T_{i}$ 和位置 $L_{j}$ 选择资源 $c_{k}$ 的概率为

(12)

式中： $D T (T_{i}, E_{s k})$ 为用户 $u_{s}$ 选择资源 $c_{k}$ 的时间与 $T_{i}$ 的单位距离； $D L (L_{j}, E_{s k})$ 为用户 $u_{s}$ 选择资源 $c_{k}$ 的位置与 $L_{j}$ 的单位距离。

用户 $u_{s}$ 在时刻 $T_{i}$ 和位置 $L_{j}$ 选择资源 $c_{k}$ 的概率为

(13）

2.5　联合概率推荐

用户在移动环境下使用移动教学平台时，推荐用户最感兴趣的资源是一个多因素的复杂迭代过程，针对社交关系、行为特征、资源关联和时空环境与用户资源选择的关系，结合式（3）~（5）、（9）、（11）、（13），基于上下文的移动混合推荐模型CMMSSN如下：

\begin{array}{l}  \end{array}

\begin{array}{l}  \end{array}

(14)

式中：Ω为所有的均方差构成的矩阵。

因此，推荐问题转化为根据用户的历史记录、随机梯度下降法优化式（14），求解满足目标最大情况下的特征矩阵 $U$ 和 $C$ ，对于用户 $u_{s}$ 在 $T_{i}$ 和位置 $L_{j}$ 选择资源 $c_{k}$ 的预测评分为

(15)

根据式（15）选择评分最大的Top-n资源推荐给用户。

3 试验分析

本文使用某电力集团公司的移动学习平台GDcourse中的真实用户和资源进行验证，将本文所研究的移动推荐算法应用在电力学习资源的实时推荐中。

3.1　数据集

选择2014—2016年的用户数据、资源数据、选择和评论数据、社交关系数据、登录记录等数据，最终得到电力学习平台的基本信息：资源数为15 361，用户数为98 413，用户关系数为345 671，历史选择记录数为225 236，带时空的登录记录数为142 364。

资源的选择矩阵E的数据来自于用户对资源的阅读日志数据库，用户 $u_{i}$ 对资源 $u_{j}$ 的评价值 $E_{i j}$ 根据阅读的情况进行计算，计算方式如下：

1）如果从未阅读，则

2）如果对一个时长为T的资源进行了k次阅读，阅读时间为｛t₁，t₂，…，t_k｝，则

3）如果对一个时长为T的资源阅读时间t<T/10，且在这个阅读行为后5 min内阅读了其他资源，表明用户对该资源隐式负评价，则 $E_{i j}$ 在原来的基础上减去t/T。

最后对 $E_{i j}$ 进行汇总后，再对所有的E进行标准化处理，使得E分布在［0，1］区间内。

阅读日志中有一部分是通过手机进行阅读，带有poi信息。为了对试验中所有的阅读日志统一进行处理，对于缺失时空数据的记录，在对式（13）计算时进行忽略处理。

3.2　评价指标

为分析本文算法的精度，试验采用2个通用评估指标来度量本文算法的准确性：均方根误差（root mean square error，RMSE）和平均绝对误差（mean absolute error，MAE）。均方根误差反映误差的离散程度，平均绝对误差反映预测值误差的实际情况。

(16)

(17)

式中： $τ$ 为测试集， $|τ|$ 表示测试集中用户-资源数据对的数量； ${\hat{E}}_{i j}$ 为根据本文方法预测得到的用户评分。RMSE和MAE越小，说明方法越精确。

3.3　比较方法

为了分析比较本文方法的推荐性能，在同样的数据集上使用相关的主流方法进行推荐，主要方法包括：

1）ContextMF^［18］（context matrix decomposition）：该方法扩展了传统的概率矩阵因子分解模型，在PMF的后验分布中增加了用户-项目选择矩阵、用户-用户偏好相似度矩阵和项目-项目相似性矩阵，实现了上下文的推荐。

2）CTRSTE^［19］（collaborative topic regression with social trust ensemble）：该方法提出了基于社交信任关系的协同主题回归方法，将关注关系用于改进后验分布，并将LDA模型融合在PMF模型中。

3）OntologyMF^［20］（ontology matrix decomposition）：该方法提出了一种基于协同过滤的混合推荐方法，使用降维和本体方法，提高CF推荐的准确性，并通过SVD建立项目和用户的相似关系进行扩展推荐。

4）TrustSVD^［21］（trust singular value decomposition）：该方法组合了用户项目选择矩阵和信任关系矩阵，通过用户之间的朋友关系和相似性计算显示的信任关系，扩展了SVD++模型。

5）EURB^［22］（exploring users' rating behaviors）：该方法捕获3个基于用户-用户关系的SVD++模型，通过3个关系的正则式进行平均优化。第1个关系是兴趣相似性，第2个关系是评级得分和评价日期的行为相似性，第3个关系是人际评级行为的扩散。

3.4　试验设计

为了全面测试本文提出的算法在一般情况和稀疏数据时的表示，对近3年来的数据通过不同的策略从不同的角度进行测试，以验证本文算法的有效性。

1）不同稀疏度的测试。采用交叉验证方法来测试不同训练集对性能的影响。具体来说，就是将数据集随机分为10等份，测试时从其中随机选择m份作为训练集进行测试，剩下的作为测试数据。每类测试重复进行5次，每次都是重新随机抽取训练集。将最终得到的RSME和MAE指标进行平均，作为算法的评估标准，从而保证算法验证的可靠性。不同稀疏度的测试对不同的m取值分别进行试验，在本试验中m分别取3、5、8三种情况来验证不同稀疏度的性能，具体结果如表1所示。

表1 试验数据集统计

Table 1 Experimental data set statistics

数据集大小	指标		Context MF	CTRSTE	OntologyMF	TrustSVD	EURB	CMMSSN
30%	RMSE	k=5	0.661	0.664	0.740	0.659*	0.659	0.642
	RMSE	k=10	0.660	0.659	0.717	0.630*	0.658	0.613
	MAE	k=5	0.533	0.536	0.586	0.529*	0.531	0.528
	MAE	k=10	0.500	0.499	0.573	0.511	0.499*	0.492
50%	RMSE	k=5	0.655	0.658	0.724	0.642*	0.653	0.633
	RMSE	k=10	0.628	0.628	0.707	0.636	0.626*	0.606
	MAE	k=5	0.516	0.517	0.566	0.501*	0.514	0.492
	MAE	k=10	0.514	0.512	0.562	0.493*	0.512	0.485
80%	RMSE	k=5	0.641	0.638	0.703	0.619	0.638*	0.599
	RMSE	k=10	0.641	0.640	0.699	0.639	0.638*	0.599
	MAE	k=5	0.503	0.503	0.561	0.510	0.501*	0.496
	MAE	k=10	0.489	0.488	0.554	0.499	0.487*	0.480

注： *表示所有其他方法中的最佳性能。

2）不同特征矩阵维度的测试。特征矩阵U和C的维度反映用户和资源的隐含特征数量，该值都是通过经验来设置，本文试验验证了维度d取5和10两种情况下在各个训练过程中的表现，分析了维度k对性能的影响。

3.5　试验结果

本文试验将电力移动教学平台中的用户-资源历史评分数据进行交叉验证，分别选取不同的数据集大小（30%、50%、80%）作为训练集，其他的作为测试集进行验证。低维特征矩阵的维度k分别取5和10。本文方法与其他算法的RMSE和MAE指标比较如表1所示。

试验结果表明：

1）用户间的社交关系能提高推荐的性能，尤其是在训练集不足的情况下效果更明显。例如CMMSSN、TrustSVD、EURB等方法在训练集较小时推荐性能明显优于context MF、CTRSTE、OntologyMF等方法。

2）训练集越大预测的性能就越好，这说明CMMSSN方法没有出现过拟合的情况。另外CMMSSN在50%的训练集时已经比较接近最优的效果，说明CMMSSN通过社交网络和移动上下文特征降低了对训练集的依赖。

3）本文的CMMSSN方法在精度和扩展性上都优于其他方法。

4 总结

本文针对某电力集团公司的移动在线学习平台中的资源推荐问题，展开了深入的理论分析和试验研究。学习平台中的用户对学习资源的喜好问题与传统的推荐问题不同，不仅依赖于个人偏好和兴趣特征，且会随着学习经历的变化而发生改变，同时移动设备所在的时空环境与上下文信息也会影响用户对资源的选择。

本文以概率矩阵模型为基础，以先验概率分布建立社交关系、行为特征、资源关联、时空环境与用户评价的分布关系，并通过联合概率分布融入到概率矩阵模型中进行优化，从而得到更为精确的用户与项目的潜在特征矩阵，实现了基于移动环境的实时学习资源推荐问题。试验结果表明，本文提出的方法在移动学习资源平台中具有良好的效果。

推荐问题涉及到的因素很多且具有动态变化的特点，本文的研究和试验都是在静态数据中进行分析和验证，在动态环境下可能会有漂移情况，在今后的研究中，将会针对推荐平台中更深入的问题展开研究。

关键字：优秀论文

上一篇：基于空间变换网络的人员行为识别方法
下一篇：高效液相色谱法测定植物油料油脂中生育酚含量

栏目分类

热门排行

推荐信息

期刊知识

基于E⁃Learning的移动学习推荐系统研究

1 问题模型

2 模型求解

2.1 基于社交关系的推荐

2.2 基于用户行为特征的推荐

2.3 基于资源关联和上下文的推荐

2.4 基于时空环境的移动推荐

2.5 联合概率推荐