宝玛科技网
您的当前位置:首页基于协同过滤算法的职业教育学习平台个性化课程推荐模型研究

基于协同过滤算法的职业教育学习平台个性化课程推荐模型研究

来源:宝玛科技网
研讨◆探析◆管理

研讨

基于协同过滤算法的职业教育学习平台个性化课程推荐模型研究黄韵欣,刘晋泽,章艺云,李

(国防科技大学,湖南长沙410073)

[摘

要]随着信息技术的发展和在线教育的展开,人们逐渐从信息匮乏的时代走入了信息过载的

时代,如何将海量课程资源与用户需求进行匹配成为一大难题。面向职业教育学习平台,研究基于协同过滤算法的个性化课程推荐模型,分别提出基于用户的推荐模型UserCF和基于对象的推荐模型ItemCF,并引入多进程思想优化模型训练效率。其研究成果应用在某职业教育学习平台,取得较好的效果。

[关

键词]推荐系统;职业教育;个性化学习

[文献标志码]A

[文章编号]2096-0603(2022)03-0154-03二、相关工作

1995年,美国人工智能协会上首次提出了“个性化

[中图分类号]G2一、研究背景

在信息技术和互联网飞速发展的背景下,大数据电商、医疗、金融等领域。随着职业教育全面推开,在线职业教育模式兴起,课程建设知识体系日渐丰富。目前,某职业教育网络服务平台已上线课程万余门,如何从海量资源中选择感兴趣的课程对学习者来说是一种挑战。课程推荐技术,为学习者提供了一种解决方案。

的概念,最初应用在个性化导航系统WebWatcher时代已然来临,信息过载问题普遍存在,尤其是在教育、推荐”

上[1]。20世纪90年代开始,推荐算法的研究开始蓬勃发展。当前主流的推荐算法大致可归类为基于内容推荐、协同过滤推荐、基于规则推荐、基于效用推荐和基于知识推荐五大类[2]。

然而现有成熟的推荐方案不能直接应用于本平台:

.com.cn. All Rights Reserved.受限于服务平台硬件条件,需要较轻的负载。(2)考某职业教育业务平台当前采用基于数据统计的课(1)

不能直接采用程推荐方法,依据选课人次对平台课程进行排序,将大虑到信息的保密性和应用领域的特殊性,多数平台用户感兴趣的课程作为推荐项,即热门选课排行榜。这种传统的推荐方法有其优点:(1)课程质量有保证,课程内容和授课方式为大多数人所接受;(2)能解决冷启动问题,对于没有学习记录的平台,新用户能给出较好的课程推荐结果。同时也存在一些不足:(1)易导致长尾分布现象的出现,用户选课集中在少数热门课程。(2)不能拓宽用户知识面,所推荐课程集中在部分领域。(3)推荐方案缺乏个性化,所有用户将无差别得到相同的推荐结果。

本文基于协同过滤的基本思想提出两种个性化课程推荐方案,分别为基于用户的推荐模型UserCF和基于对象的推荐模型ItemCF;采用多进程方案优化训练时间,提高模型训练效率;在某职业教育网络学习平台上部署算法模块,实现针对平台活跃用户的个性化、智能化课程推荐功能。-154-推荐课程展示

与平台前端界面对接

结果使用

用户个性化

推荐课程结果

有效用户历史学习行为数据

提供用户数据

效果评估是否注册学习了推荐课程

提供模型推荐课程

在线推理

现有商业云服务。

三、系统方案(一)总体架构

基于协同过滤的基本思想分别设计基于用户的推荐模型UserCF和基于对象的推荐模型ItemCF。个性化课程推荐模型的总体架构如图1所示,由离线训练、在线推理、结果使用和效果评估四个功能模块组成。

离线训练数据预处理、模型训练

推荐模型

数据库

图1个性化课程推荐系统总体架构

研讨◆探析◆管理

(二)离线训练

(1)从服务平台业务数据库中抽取近n天平台活跃用户的课程学习行为数据,作为推荐模型的训练数据。(2)采用基于协同过滤算法的基本思想,分别训练基于用户的推荐模型UserCF和基于对象的推荐模型ItemCF数据库,,并用存来储存在储推荐推荐系统模型配数据置参库数中。

。(3)设置单独的ID映射数据库

业务数据库

抽活取跃近用户n天学预习的课程

学习处数据

理推荐训练

模型

推荐数据模库

推荐配系统

数据置参库

数图2个性化课程推荐系统离线训练阶段流程图

(三)在线推理

映射ID

数据库

抽业务数据活取提映学跃近库

习用户n天未学预习处数据

理的课程

模取线型推荐上执推行理列射始表推荐为ID

原推荐数据结库

果推荐配推荐数据置系统参库

数数据模库

型图3个性化课程推荐系统在线推理阶段流程图

图3展示了个性化课程推荐系统在线推理阶段的具体流程。(1)从平台业务数据库中抽取近n天的活跃用户学习课程行为数据。(2)读取推荐系统配置参数数据库,取出协同过滤算法的主要参数,包括K近邻个数、推荐课程个数等。(3)对采集到的学习数据进行预处理,主要包括:基于离线训练阶段生成的ID映射数据库对数据做ID映射、生成CSV表格数据。(4)从推荐模型数据库中提取推荐模型,针对目标用户启动模型执行线上推理。(5)基于ID映射数据库,将推荐列表的课程ID映射为原始的课程ID。(6)将原始课程ID的推荐列表存入推荐结果数据库,读取推荐结果数据库中的推荐列表进行平台前端展示。

(四)结果使用

本阶段的主要功能是基于活跃用户的ID,从推荐结果数据库中取出推荐模型为其推荐的原始课程ID列表,并以图形化的形式展示在相应用户的平台页面。

研讨

(五)效果评估

抽推荐取前业务数据库

行后系统一次

m天执内计活评算价效指果标

存储评价结果

学跃习用的课程

户新推荐配置系统

参数推荐数据库

数据结库

果图4个性化课程推荐系统效果评估阶段流程图

图4为个性化课程推荐系统效果评估阶段的具体流程。(1)从平台业务数据库中抽取前一次推荐系统执

行后m天内活跃用户新学习的课程。(2)读取推荐系统

配置参数数据库,取出协同过滤算法的主要参数,包括K中近取邻出个推荐数、的课程推荐课程列表,个数比等较。推荐(3)从结推荐果和结用果户数据实际库学习的课程,计算效果评价指标。(4)存储此次效果评价指标的值,并且系统通过统计用户是否注册学习了向他推荐的课程作为推荐效果的反馈。

四、实验与分析(一)数据准备

从平台抽取近90天活跃用户的课程学习数据,得到的数据统计特征如下:

表1

推荐系统数据集的统计特征

用户数947195课程数2751数据稀疏度0.99788人均选课数6课均用户数

2006

所有用户的选课数直方图如图5所示,其中横坐标代表用户的活跃度K,纵坐标代表活跃度为K的用户总数。直观地看到平台的用户选课行为是符合长尾分布的。

1010101010100

0100200300400

图5用户的选课数直方图

-155-

.com.cn. All Rights Reserved.研讨◆探析◆管理

(二)参数设置

为了保证所设计的机器学习算法具有最优性能,表4

基于协同过滤算法的单机多进程的效率

研讨

基于用户的协同过滤算法基于对象的协同过滤算法对协同过滤算法进行调参,重点关注最近邻参数K的不同取值对于算法的性能效果影响。选用选课数据子集,其中用户数为4901,课程数为2024;选取K值为10、50、100、200,对基于对象的协同过滤算法测评四个指标以及计算耗时。

表2

不同K值下算法的测评指标K1050100200耗时

(s)188.11206.20178.10237.19PrecisionRecall0.200.120.200.120.210.130.19PopularityCoverage0.721.860.801.860.820.121.860.771.对比发现,当K值取100的时候,四项测评指标的值呈现出的效果最好,且耗时最短,因此基于K取100部署最优的协同过滤算法在平台上。

(三)实验结果

以单机单进程的训练集、测试集为数据输入,分别运行单机单进程的基于用户的协同过滤算法和基于对象的协同过滤算法,得到计算耗时以及召回率、准确率、覆盖率和平均流行度四项测评指标值,如表3所示。

表3

基于协同过滤算法的单机单进程的测评指标值

基于用户的基于对象的协同过滤算法协同过滤算法用户数322,2322,2课程数2,6552,655耗时(s)15,116.46(抑4h12m)58,633.66(抑16h17m)Recall0.210.36PopularityCoveragePrecision0.860.134.720.980.224.34引入多进程思想,优化单机单进程版本为单机多进程形式,模型效率如表4所示。-156-

用户数304,076304,076课程数1,4611,461耗时(s)7,492.24(抑2h48m)9,034.35(抑2h30m)(四)结果分析

从实验结果可以得出以下结论:

(1)对比《推荐系统实验》[3]中实验的测评指标值,

两个算法的实现效果都比较好。(2)基于对象的协同过滤算法的四项测评值均优于基于用户的协同过滤算法的测评值。原因不难发现:ItemCF适用于对象数明显小于用户数的场合,也适用于长尾物品丰富、用户个性化需求强烈的领域,而平台的数据正好是符合上述特征的。ItemCF算法的实时性好,能够利用用户的历史行为给用户做推荐解释,可以令用户比较信服,相较于UserCF而言是最好的选择。(3)基于物品的协同过滤算法的耗时明显大于基于用户的协同过滤算法,且基于用户的协同过滤算法的耗时也并不乐观。引入多进程的思想,优化单机单进程代码为单机多进程的形式,可以看到时间明显减少,多进程实验效果显著。

五、总结

个性化、智能化是发展在线教育的要素,本文研究基于协同过滤思想的个性化智能推荐系统,并采用多进程思想优化模型训练效率。其研究成果集成在某职业教育学习平台,应用结果表明,用户对推荐结果满意度较高。

参考文献:

[1]赵守香,唐胡鑫,熊海涛,等援大数据分析与应用M].北京:航空工业出版社,2015-12.

[2]杨旭,汤海京,丁刚毅援数据科学导论[酝].2版.北京:北京理工大学出版社,2017原园员.

[3]项亮.推荐系统实践[M].北京:人民邮电出版社,2012原园远.

因编辑鲁翠红

[.com.cn. All Rights Reserved.

因篇幅问题不能全部显示,请点此查看更多更全内容