一种基于演化博弈的在线知识共享动态奖励方法技术

技术编号：26970729 阅读：45 留言：0更新日期：2021-01-06 00:00

本发明专利技术属于在线教育领域，公开了一种基于演化博弈的在线知识共享动态奖励方法，包括根据学习者的知识共享记录信息，获得学习者的信誉值；针对每一位学习者，根据该学习者设定的趋同条件信息、该学习者的信誉值、其他学习者的信誉值，筛选出作为该学习者博弈对象的邻居学习者的集合；定义博弈策略和收益矩阵，确定动态奖励函数；在每一轮博弈中，计算每个学习者的学习收益值；针对每一位学习者，筛选出候选学习对象的集合；通过赌轮盘算法和费米动力学规则进行策略更新；根据更新的策略计算得到动态奖励值，在线学习平台根据动态奖励值对进行知识共享的学习者奖励。本发明专利技术在给予学习者激励的基础上能够尽量地减少平台的开销。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于演化博弈的在线知识共享动态奖励方法
本专利技术涉及在线教育领域，尤其涉及一种基于演化博弈的在线知识共享动态奖励方法。
技术介绍
知识共享行为作为在线学习平台的一个重点部分，是非常重要的，但是由于群体知识共享的自愿特性，学习者的共享意愿也不相同，对此，需要有一个合适的奖励机制来增加在线学习者的共享意愿，以此促进其知识共享行为。在大部分相关研究中，只是在心理层面对该行为进行了研究并简单的提出了激励机制，并没有考虑到实际情况下平台的负担。所以，结合演化博弈等技术，在给予学习者激励的基础上能够尽量地减少平台的开销，以此达到双赢的效果变得很有价值和意义。
技术实现思路
本专利技术通过提供一种基于演化博弈的在线知识共享动态奖励方法，解决了现有技术中无法同时实现在给予学习者激励的基础上尽量地减少平台开销的问题。本专利技术提供一种基于演化博弈的在线知识共享动态奖励方法，包括以下步骤：步骤1、根据学习者的知识共享记录信息，获得学习者的信誉值；步骤2、针对每一位学习者，根据该学习者设定的趋同条件信息、该学习者的信誉值、其他学习者的信誉值，筛选出作为该学习者博弈对象的邻居学习者的集合；步骤3、定义博弈策略和收益矩阵，确定动态奖励函数；步骤4、在每一轮博弈中，计算每个学习者的学习收益值；步骤5、针对每一位学习者，根据该学习者设定的收益期望信息、邻居学习者的学习收益值，筛选出候选学习对象的集合；步骤6、通过赌轮盘算法和费米动力学规则进行策略更新；步骤7、根据更...

【技术保护点】
1.一种基于演化博弈的在线知识共享动态奖励方法，其特征在于，包括以下步骤：/n步骤1、根据学习者的知识共享记录信息，获得学习者的信誉值；/n步骤2、针对每一位学习者，根据该学习者设定的趋同条件信息、该学习者的信誉值、其他学习者的信誉值，筛选出作为该学习者博弈对象的邻居学习者的集合；/n步骤3、定义博弈策略和收益矩阵，确定动态奖励函数；/n步骤4、在每一轮博弈中，计算每个学习者的学习收益值；/n步骤5、针对每一位学习者，根据该学习者设定的收益期望信息、邻居学习者的学习收益值，筛选出候选学习对象的集合；/n步骤6、通过赌轮盘算法和费米动力学规则进行策略更新；/n步骤7、根据更新的策略计算得到动态奖励值，在线学习平台根据动态奖励值对进行知识共享的学习者奖励。/n

【技术特征摘要】
1.一种基于演化博弈的在线知识共享动态奖励方法，其特征在于，包括以下步骤：
步骤1、根据学习者的知识共享记录信息，获得学习者的信誉值；
步骤2、针对每一位学习者，根据该学习者设定的趋同条件信息、该学习者的信誉值、其他学习者的信誉值，筛选出作为该学习者博弈对象的邻居学习者的集合；
步骤3、定义博弈策略和收益矩阵，确定动态奖励函数；
步骤4、在每一轮博弈中，计算每个学习者的学习收益值；
步骤5、针对每一位学习者，根据该学习者设定的收益期望信息、邻居学习者的学习收益值，筛选出候选学习对象的集合；
步骤6、通过赌轮盘算法和费米动力学规则进行策略更新；
步骤7、根据更新的策略计算得到动态奖励值，在线学习平台根据动态奖励值对进行知识共享的学习者奖励。

2.根据权利要求1所述的基于演化博弈的在线知识共享动态奖励方法，其特征在于，所述步骤2中，所述趋同条件信息为趋同范围，采用如下公式计算：
A＝test*(rand(1，N))
其中，A表示趋同范围，test表示测试常数，rand函数生成随机数值，N表示当前在线的学习者的人数；
通过比较该学习者设定的趋同范围、该学习者与其他学习者之间的信誉值差值，得到趋同范围内邻居学习者的集合。

3.根据权利要求1所述的基于演化博弈的在线知识共享动态奖励方法，其特征在于，所述步骤3中，根据学习者的信誉值，将在线学习平台中的学习者分为三个群体，分别为完全知识共享者D、有条件知识共享者C、拒绝知识共享者S；
所述博弈策略包括第一种策略、第二种策略、第三种策略；所述完全知识共享者D、所述有条件知识共享者C、所述拒绝知识共享者S分别对应所述第一种策略、所述第二种策略、所述第三种策略；
所述第一种策略为：无论对方做出何种决策，该学习者都进行知识共享；所述第二种策略为：基于对方学习者的信誉值，该学习者判断是否进行知识共享；所述第三种策略为：无论对方做出何种策略，该学习者都不进行知识共享；
该学习者每进行一次知识共享，则在线学习平台对该学习者给予奖励；
所述收益矩阵A*为：

其中，λ表示进行知识共享的收益，μ表示进行知识共享的成本，rd表示动态奖励函数，Cad表示有条件知识共享者查询信息的额外损失，k表示网络平均度。

4.根据权利要求3所述的基于演化博弈的在线知识共享动态奖励方法，其特征在于，通过修改后的复制动力学方程确定所述动态奖励函数；
所述修改后的复制动力学方程为：

其中，表示描述策略的预期比例随时间的变化，xi表示采用第i种策略的学习者在群体中的比例，x1表示完全知识共享者D在群体中的比例、x2表示有条件知识共享者C在群体中的比例、x3表示拒绝知识共享者S在群体中的比例；fi表示学习者i的策略si的平均适应度，gi表示学习者i的策略si在所有策略中的竞争力，φ表示整个群体的平均适应度；
fi+gi作为评价策略适应度的指标，fi+gi采用如下公式计算：

其中，xj表示博弈对象的策略，表示收益矩阵A*中的对应项；
设置...

【专利技术属性】
技术研发人员：夏丹，丘莹，张思，柯慧荣，
申请(专利权)人：华中师范大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人