一种基于演化博弈的在线知识共享动态奖励方法技术

技术编号:26970729 阅读:45 留言:0更新日期:2021-01-06 00:00
本发明专利技术属于在线教育领域,公开了一种基于演化博弈的在线知识共享动态奖励方法,包括根据学习者的知识共享记录信息,获得学习者的信誉值;针对每一位学习者,根据该学习者设定的趋同条件信息、该学习者的信誉值、其他学习者的信誉值,筛选出作为该学习者博弈对象的邻居学习者的集合;定义博弈策略和收益矩阵,确定动态奖励函数;在每一轮博弈中,计算每个学习者的学习收益值;针对每一位学习者,筛选出候选学习对象的集合;通过赌轮盘算法和费米动力学规则进行策略更新;根据更新的策略计算得到动态奖励值,在线学习平台根据动态奖励值对进行知识共享的学习者奖励。本发明专利技术在给予学习者激励的基础上能够尽量地减少平台的开销。

【技术实现步骤摘要】
一种基于演化博弈的在线知识共享动态奖励方法
本专利技术涉及在线教育领域,尤其涉及一种基于演化博弈的在线知识共享动态奖励方法。
技术介绍
知识共享行为作为在线学习平台的一个重点部分,是非常重要的,但是由于群体知识共享的自愿特性,学习者的共享意愿也不相同,对此,需要有一个合适的奖励机制来增加在线学习者的共享意愿,以此促进其知识共享行为。在大部分相关研究中,只是在心理层面对该行为进行了研究并简单的提出了激励机制,并没有考虑到实际情况下平台的负担。所以,结合演化博弈等技术,在给予学习者激励的基础上能够尽量地减少平台的开销,以此达到双赢的效果变得很有价值和意义。
技术实现思路
本专利技术通过提供一种基于演化博弈的在线知识共享动态奖励方法,解决了现有技术中无法同时实现在给予学习者激励的基础上尽量地减少平台开销的问题。本专利技术提供一种基于演化博弈的在线知识共享动态奖励方法,包括以下步骤:步骤1、根据学习者的知识共享记录信息,获得学习者的信誉值;步骤2、针对每一位学习者,根据该学习者设定的趋同条件信息、该学习者的信誉值、其他学习者的信誉值,筛选出作为该学习者博弈对象的邻居学习者的集合;步骤3、定义博弈策略和收益矩阵,确定动态奖励函数;步骤4、在每一轮博弈中,计算每个学习者的学习收益值;步骤5、针对每一位学习者,根据该学习者设定的收益期望信息、邻居学习者的学习收益值,筛选出候选学习对象的集合;步骤6、通过赌轮盘算法和费米动力学规则进行策略更新;步骤7、根据更新的策略计算得到动态奖励值,在线学习平台根据动态奖励值对进行知识共享的学习者奖励。优选的,所述步骤2中,所述趋同条件信息为趋同范围,采用如下公式计算:A=test*(rand(1,N))其中,A表示趋同范围,test表示测试常数,rand函数生成随机数值,N表示当前在线的学习者的人数;通过比较该学习者设定的趋同范围、该学习者与其他学习者之间的信誉值差值,得到趋同范围内邻居学习者的集合。优选的,所述步骤3中,根据学习者的信誉值,将在线学习平台中的学习者分为三个群体,分别为完全知识共享者D、有条件知识共享者C、拒绝知识共享者S;所述博弈策略包括第一种策略、第二种策略、第三种策略;所述完全知识共享者D、所述有条件知识共享者C、所述拒绝知识共享者S分别对应所述第一种策略、所述第二种策略、所述第三种策略;所述第一种策略为:无论对方做出何种决策,该学习者都进行知识共享;所述第二种策略为:基于对方学习者的信誉值,该学习者判断是否进行知识共享;所述第三种策略为:无论对方做出何种策略,该学习者都不进行知识共享;该学习者每进行一次知识共享,则在线学习平台对该学习者给予奖励;所述收益矩阵A*为:其中,λ表示进行知识共享的收益,μ表示进行知识共享的成本,rd表示动态奖励函数,Cad表示有条件知识共享者查询信息的额外损失,k表示网络平均度。优选的,通过修改后的复制动力学方程确定所述动态奖励函数;所述修改后的复制动力学方程为:其中,表示描述策略的预期比例随时间的变化,xi表示采用第i种策略的学习者在群体中的比例,x1表示完全知识共享者D在群体中的比例、x2表示有条件知识共享者C在群体中的比例、x3表示拒绝知识共享者S在群体中的比例;fi表示学习者i的策略si的平均适应度,gi表示学习者i的策略si在所有策略中的竞争力,φ表示整个群体的平均适应度;fi+gi作为评价策略适应度的指标,fi+gi采用如下公式计算:其中,xj表示博弈对象的策略,表示收益矩阵A*中的对应项;设置临界条件,根据临界条件设置所述动态奖励函数;所述临界条件定义为:满足f2+g2>f+g1>f3+g3或者f1+g1>f2+g2>f3+g3,且Cad>0;设μ=1,所述临界条件表示为:所述动态奖励函数采用如下公式计算:其中,σ为调整参数。优选的,所述步骤4中,所述计算每个学习者的学习收益值包括以下子步骤:步骤4.1、学习者i参与length(interact{i})+1个群体的博弈,所述length(interact{i})+1个群体包括以学习者i自身为中心的群体、以及以与学习者i博弈交互的邻居学习者为中心的群体;其中,length(interact{i})表示学习者i博弈交互的邻居学习者的个数;若学习者i选择进行知识共享,则学习者i在每个群体中均投入1/(length(interact{i})+1)的知识量;若学习者i选择不进行知识共享,则投入的知识量为0;每轮博弈过程中,所有学习者同时做出是否进行知识共享的决定;步骤4.2、计算学习者i参与每个群体的博弈中获得的收益,采用如下公式计算:其中,Ui,j表示学习者i参与以邻居学习者j为中心的群体的博弈中获得的收益;r表示增益系数;Ωj=interact{j},表示邻居学习者j的邻居中作为博弈交互对象的集合;Ωi表示学习者i的邻居中可以作为博弈交互对象的邻居学习者的集合;Ωl表示Ωj中的学习者和邻居学习者j的邻居中可作为博弈交互对象的邻居学习者的集合;|Ωj|=length(interact{j})表示博弈交互对象的个数;sl表示邻居学习者l的策略;si表示学习者i的策略参数,当学习者i选择进行知识共享时si=1,否则si=0;根据学习者i参与的所有群体的博弈中获得的收益,得到学习者i获得的累计收益,表示为:其中,Ui表示学习者i获得的学习收益值。优选的,所述步骤6包括以下子步骤:步骤6.1、采用轮盘赌算法,计算候选学习对象j*作为学习对象的概率为:其中,表示候选学习对象的集合,表示候选学习对象j*获得的学习收益,E表示学习者i的期望收益,Urecord表示各个候选学习对象分别获得的学习收益;步骤6.2、基于选中的所述学习对象,根据费米动力学规则进行策略更新,表示为:其中,表示候选学习对象j*的策略,si表示学习者i的策略,n表示噪音。优选的,所述步骤7中,根据更新的策略计算得到动态奖励值的具体实现方式为:获取更新后完全知识共享者D、有条件知识共享者C和拒绝知识共享者S在群体中的比例x1、x2、x3,将其带入动态奖励函数rd,得到动态奖励值。本专利技术提供的一个或多个技术方案,至少具有如下技术效果或优点:在专利技术中,提供的一种基于演化博弈的在线知识共享动态奖励方法首先根据学习者的知识共享记录信息,获得学习者的信誉值;针对每一位学习者,根据该学习者设定的趋同条件信息、该学习者的信誉值、其他学习者的信誉值,筛选出作为该学习者博弈对象的邻居学习者的集合;定义博弈策略和收益矩阵,确定动态奖励函数;然后在每一轮博弈中,计算每个学习者的学习收益值;针对每一位学习者,根据该学习本文档来自技高网...

【技术保护点】
1.一种基于演化博弈的在线知识共享动态奖励方法,其特征在于,包括以下步骤:/n步骤1、根据学习者的知识共享记录信息,获得学习者的信誉值;/n步骤2、针对每一位学习者,根据该学习者设定的趋同条件信息、该学习者的信誉值、其他学习者的信誉值,筛选出作为该学习者博弈对象的邻居学习者的集合;/n步骤3、定义博弈策略和收益矩阵,确定动态奖励函数;/n步骤4、在每一轮博弈中,计算每个学习者的学习收益值;/n步骤5、针对每一位学习者,根据该学习者设定的收益期望信息、邻居学习者的学习收益值,筛选出候选学习对象的集合;/n步骤6、通过赌轮盘算法和费米动力学规则进行策略更新;/n步骤7、根据更新的策略计算得到动态奖励值,在线学习平台根据动态奖励值对进行知识共享的学习者奖励。/n

【技术特征摘要】
1.一种基于演化博弈的在线知识共享动态奖励方法,其特征在于,包括以下步骤:
步骤1、根据学习者的知识共享记录信息,获得学习者的信誉值;
步骤2、针对每一位学习者,根据该学习者设定的趋同条件信息、该学习者的信誉值、其他学习者的信誉值,筛选出作为该学习者博弈对象的邻居学习者的集合;
步骤3、定义博弈策略和收益矩阵,确定动态奖励函数;
步骤4、在每一轮博弈中,计算每个学习者的学习收益值;
步骤5、针对每一位学习者,根据该学习者设定的收益期望信息、邻居学习者的学习收益值,筛选出候选学习对象的集合;
步骤6、通过赌轮盘算法和费米动力学规则进行策略更新;
步骤7、根据更新的策略计算得到动态奖励值,在线学习平台根据动态奖励值对进行知识共享的学习者奖励。


2.根据权利要求1所述的基于演化博弈的在线知识共享动态奖励方法,其特征在于,所述步骤2中,所述趋同条件信息为趋同范围,采用如下公式计算:
A=test*(rand(1,N))
其中,A表示趋同范围,test表示测试常数,rand函数生成随机数值,N表示当前在线的学习者的人数;
通过比较该学习者设定的趋同范围、该学习者与其他学习者之间的信誉值差值,得到趋同范围内邻居学习者的集合。


3.根据权利要求1所述的基于演化博弈的在线知识共享动态奖励方法,其特征在于,所述步骤3中,根据学习者的信誉值,将在线学习平台中的学习者分为三个群体,分别为完全知识共享者D、有条件知识共享者C、拒绝知识共享者S;
所述博弈策略包括第一种策略、第二种策略、第三种策略;所述完全知识共享者D、所述有条件知识共享者C、所述拒绝知识共享者S分别对应所述第一种策略、所述第二种策略、所述第三种策略;
所述第一种策略为:无论对方做出何种决策,该学习者都进行知识共享;所述第二种策略为:基于对方学习者的信誉值,该学习者判断是否进行知识共享;所述第三种策略为:无论对方做出何种策略,该学习者都不进行知识共享;
该学习者每进行一次知识共享,则在线学习平台对该学习者给予奖励;
所述收益矩阵A*为:



其中,λ表示进行知识共享的收益,μ表示进行知识共享的成本,rd表示动态奖励函数,Cad表示有条件知识共享者查询信息的额外损失,k表示网络平均度。


4.根据权利要求3所述的基于演化博弈的在线知识共享动态奖励方法,其特征在于,通过修改后的复制动力学方程确定所述动态奖励函数;
所述修改后的复制动力学方程为:



其中,表示描述策略的预期比例随时间的变化,xi表示采用第i种策略的学习者在群体中的比例,x1表示完全知识共享者D在群体中的比例、x2表示有条件知识共享者C在群体中的比例、x3表示拒绝知识共享者S在群体中的比例;fi表示学习者i的策略si的平均适应度,gi表示学习者i的策略si在所有策略中的竞争力,φ表示整个群体的平均适应度;
fi+gi作为评价策略适应度的指标,fi+gi采用如下公式计算:



其中,xj表示博弈对象的策略,表示收益矩阵A*中的对应项;
设置...

【专利技术属性】
技术研发人员:夏丹丘莹张思柯慧荣
申请(专利权)人:华中师范大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1