利用主动学习技术操作机器学习框架的方法、设备和计算机程序技术

技术编号:30781871 阅读:16 留言:0更新日期:2021-11-16 07:42
提供了一种在数据分析服务器中分析用户的方法,该方法包括:步骤A,建立包括多个问题的问题数据库,收集用户对多个问题的解答结果数据,以及学习解答结果数据,从而生成用于对用户建模的数据分析模型;步骤B,生成专家模型,该专家模型推荐数据分析模型进行机器学习所需的学习数据;步骤C,根据专家模型的推荐,从问题数据库中提取至少一个问题,并使用用户对提取的至少一个问题的解答结果数据来更新数据分析模型;以及步骤D,通过对数据分析模型的更新信息应用奖励来更新专家模型,该奖励被设置为提高数据分析模型的预测精度。设置为提高数据分析模型的预测精度。设置为提高数据分析模型的预测精度。

【技术实现步骤摘要】
【国外来华专利技术】利用主动学习技术操作机器学习框架的方法、设备和计算机程序


[0001]本公开涉及一种使用数据分析框架提供用户定制内容的方法。更具体地,本公开涉及一种使用大量用户内容消费结果数据生成针对问题和/或用户的分析模型以及操作专家模型以选择有效学习分析模型所需的数据的方法。

技术介绍

[0002]通常,迄今为止,教育内容是以打包形式提供的。例如,印刷在纸上的一本练习册至少有700个问题,包含至少应该学习一个月的学习材料的线上或线下讲座以一小时或两个小时为单位一起出售。
[0003]然而,由于所有学生都有不同的个性化弱点和弱问题类型,因此学生需要个性化定制的内容,而不是打包形式的内容。这是由于选择性地仅学习弱单元中的弱问题类型比解答练习册中的所有700个问题有效得多。
[0004]然而,作为学习者的学生自己难以识别自己的弱点。此外,在传统教育领域,由于私立教育机构或出版公司根据主观经验和直觉来分析学生和问题,因此提供针对个别学生优化的问题并不容易。
[0005]因此,在传统的教育环境中,学习者难以提供获得更有效学习效果的个性化定制内容,并且学生可能没有成就感,并迅速对打包式教育内容失去兴趣。

技术实现思路

[0006]技术问题
[0007]鉴于上述问题实现了本公开。更具体地,本公开的一方面提供了一种操作专家模型以选择有效生成用户和/或问题模型所需的数据的方法。
[0008]解决技术问题的技术方案
[0009]根据本公开的一方面,一种在数据分析服务器中分析用户的方法包括:步骤A,建立包括多个问题的问题数据库,收集用户对多个问题的解答结果数据,以及学习解答结果数据,从而生成用于对用户建模的数据分析模型;步骤B,生成专家模型,该专家模型推荐数据分析模型进行机器学习所需的学习数据;步骤C,根据专家模型的推荐,从问题数据库中提取至少一个问题,并使用用户对提取的至少一个问题的解答结果数据来更新数据分析模型;以及步骤D,通过对数据分析模型的更新信息应用奖励来更新专家模型,该奖励被设置为提高数据分析的预测精度。
[0010]本专利技术的有益效果
[0011]根据本公开,可以在机器学习中与数据分析模型分开地操作数据选择模型以有效地提高数据分析模型的性能。因此,由于数据选择模型提出学习数据分析模型的数据,因此具有以下效果,可以减少学习数据分析模型所需的计算机资源、可以有效地实现数据分析模型的可靠性并且可以解决数据选择的问题。
附图说明
[0012]图1是示出机器学习的数据集的问题的示图。
[0013]图2是示出根据本公开实施例的在数据分析框架中操作学习数据分析模型和数据指导模型的方法的流程图。
[0014]图3是示出对问题X的理解程度与对问题P的回答正确的概率之间的关系的示图。
[0015]图4是示出根据本公开实施例的结束针对学习数据分析模型的推荐数据的方法的示图。
具体实施方式
[0016]本公开不限于以下描述的实施例的描述,并且显然可以在不脱离本公开技术主旨的情况下进行各种修改。在以下描述中,由于公知的功能或构造会以不必要的细节混淆本公开,因此没有对其详细描述。
[0017]在附图中,相同的组件由相同的附图标记表示。此外,在附图中,一些元件可能被夸大、省略或示意性地示出。这是为了通过省略与本公开的主旨无关的不必要解释来清楚地说明本公开的主旨。
[0018]最近,随着IT装置的普及,针对用户分析的数据收集变得更加容易。如果能够充分收集用户数据,则对用户的分析变得更加精确,从而可以提供最适合用户的形式的内容。
[0019]伴随着这一趋势,对提供用户定制的教育内容的需求很高,尤其是在教育行业。然而,为了提供这种用户定制的教育内容,需要对所有内容和个体用户进行精确分析。
[0020]传统上,为了分析内容和用户,已经使用了以下方法,即专家手动定义相应主题的概念并且专家单独确定和标记针对相应主题的各个问题的概念。然后,可以基于每个用户解答针对特定概念标记的问题所获得的结果信息来分析学习者的能力。
[0021]然而,该方法的问题在于标签信息取决于人的主观性。由于在没有人的主观干预的情况下以数学方式生成的标签信息没有根据概念在相应问题中的包含程度而被分配给相应问题,因此存在结果数据的可靠性不高的问题。
[0022]因此,本公开旨在提供一种应用大数据处理和机器学习的数据分析框架以排除学习数据处理中的人为干预,以及使用数据分析框架分析用户和/或问题的方法。
[0023]据此,可以收集用户内容的结果日志,可以构建由用户和/或问题组成的多维空间,基于用户对内容消费的结果数据(例如,问题、评论和讲座、用户对每个问题的答案是正确还是错误的数据、对每个问题的每个选项的选择的数据等)为多维空间指定值,从而采用为每个用户和每个问题计算向量的方式对每个用户和/或问题建模,并且可以计算用户模型向量和问题模型向量。
[0024]在这种情况下,用户建模向量可以被解释为表示每个单独用户针对所有问题的特征的向量值,并且问题建模向量可以被解释为表示每个单独问题针对所有用户的特征的向量值。此外,计算用户建模向量和/或问题建模向量的方法不受限制,可以按照应用于计算用户建模向量和/或问题建模向量所用的大数据分析框架中的传统做法。
[0025]此外,应当注意,本公开不能被解释为限于用户建模向量和问题建模向量包括什么属性或特征。例如,用户建模向量可以表示所有用户之中的一个单独用户的特征,问题建模向量可以表示所有问题之中的一个单独问题的特征。
[0026]例如,根据本公开的实施例,用户建模向量可以包括用户对任意概念的理解程度,即对概念的理解水平。此外,问题建模向量可以包括问题由什么概念构成,即概念构成图。此外,根据本公开的实施例,可以使用用户建模向量和问题建模向量来估计特定用户对特定问题回答正确的概率。
[0027]此外,根据本公开的实施例,在对问题进行建模的过程中,可以通过添加问题的选项的参数来将问题向量扩展为问题

选项向量,并且可以使用用户建模向量和问题

选项建模向量来计算特定用户针对任意问题选择特定选项的概率。
[0028]然而,为了使用数据分析框架对用户和问题进行数学建模,需要解决选择学习数据的问题。
[0029]图1是用于说明应用于传统机器学习建模的数据集的问题的示图。
[0030]当向大量用户提供大型内容数据库时,用户不会以恒定频率消费所有内容。例如,在介绍新用户的开头时提供的问题或每个章节的基本问题可能比其它问题解答得更多。因此,问题的数量与解答的频率可以遵循图1所示的曲线图。也就是说,在问题数据库中,大多数用户多次解答的问题数量非常少(100个),大多数问题(200个)往往被少量用户解答一次或两次,从而遵循长尾分布。
[0031]然而,当问题的解答频率遵循如图1所示的分布时,即当经常解答的问题数量太少而偶尔解答的问题数量太多时,使用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种在数据分析服务器中分析用户的方法,所述方法包括:步骤A,建立包括多个问题的问题数据库,收集用户对所述多个问题的解答结果数据,以及学习所述解答结果数据,从而生成用于对用户建模的数据分析模型;步骤B,生成专家模型,所述专家模型独立于所述数据模型进行操作,所述专家模型基于与所述数据分析模型的数据不同的数据进行学习,并且推荐所述数据分析模型提高所述数据分析模型在任意时间点的性能所需的学习数据;步骤C,根据所述专家模型的推荐,从所述问题数据库中提取至少一个问题,并使用用户对所提取的至少一个问题的解答结果数据来更新所述数据分析模型;以及步骤D,通过对所述数据分析模型的更新信息应用奖励来更新所述专家模型,所述奖励被设置为沿着提高所述数据分析模型的预测精度的方向,其中所述步骤B包括通过学习关于所述数据分析模型的第一状态的信息、关于所述数据分析模型的第二状态的信息以及使所述第一状态变为所述第二状态的数据的信息来生成所述专家模型。2.根据权利要求1所述的方法,其中所述步骤A包括计算表示每个用户针对问题的特征的用户建模向量,并使用所述用户建模向量来估计每个用户对问题的回答正确的概率,并且其中所述步骤D包括...

【专利技术属性】
技术研发人员:申东珉李镕求
申请(专利权)人:日益得有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1