System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及数据处理,尤其涉及一种样本量确定方法、装置和存储介质。
技术介绍
1、通过对用户进行问卷发放并统计的方式进行用户的满意度的调查,进而进行业务的调整,是常见的。相关技术中,可基于发放的问卷作为训练样本,训练得到相关业务对应的满意度预测模型,进而确定用户的满意度,其中,训练样本的样本数量对满意度预测模型的稳定性和精度影响较大。
技术实现思路
1、为克服相关技术中存在的样本量确定不准确导致的满意度预测模型的稳定性和精度较差的问题,本公开提供一种样本量确定方法,通过预先确定多个原始样本量,并确定多个原始样本量对应的得分映射模型,进而根据每个原始样本量对应的多个得分映射模型确定每个原始样本量对应的模型稳定性参数,再根据模型稳定性参数从多个原始样本量中选择出满足稳定条件且样本量最小的原始样本量作为目标样本量。从而能够在保证建立一个较为稳定且准确的得分映射模型的情况下,尽量减小样本量。
2、根据本公开实施例的第一方面,提供一种样本量确定方法,包括:
3、确定多个原始样本量对应的得分映射模型,每个所述原始样本量对应多个得分映射模型,每个所述得分映射模型表征多个影响因子满意度在不同分组下的影响因子得分;
4、根据每个原始样本量对应的多个得分映射模型,确定每个原始样本量对应的模型稳定性参数;
5、将所述多个原始样本量中模型稳定性参数满足稳定条件且样本量最小的原始样本量确定为目标样本量。
6、可选地,所述确定多个原始样本量对应的得分映
7、获取基础样本、所述多个原始样本量以及每个原始样本量对应的重复采样次数;
8、根据每个原始样本量对应的重复采样次数,对所述基础样本进行重复采样,得到每个原始样本量对应的多组采样样本;
9、根据每个原始样本量对应的每一组采样样本,建立得分映射模型,得到所述多个原始样本量对应的得分映射模型。
10、可选地,所述根据每个原始样本量对应的每一组采样样本,建立得分映射模型,包括:
11、针对任一原始样本量对应的任一组采样样本,根据该组采样样本中每一个采样样本所对应的整体满意度标签和多个影响因子满意度在不同原始样本分组下的证据权重值,对基础网络进行多轮训练,得到该组采样样本对应的整体满意度预测模型;
12、对该组采样样本对应的整体满意度预测模型进行得分映射,得到该组采样样本对应的得分映射模型。
13、可选地,所述模型稳定性参数包括预测精度均值和预测精度标准差;
14、所述根据每个原始样本量对应的多个得分映射模型包括的所述影响因子得分,确定每个原始样本量对应的模型稳定性参数,包括:
15、针对任一原始样本量对应的任一得分映射模型,根据该得分映射模型所对应的多个影响因子得分,确定该得分映射模型对应的每一采样样本的整体得分;
16、根据该得分映射模型对应的每一采样样本的整体得分以及每一采样样本所对应的整体满意度标签,确定该得分映射模型的预测精度;
17、根据每个原始样本量对应的多个得分映射模型的预测精度,得到每个原始样本量对应的所述预测精度均值和所述预测精度标准差。
18、可选地,所述模型稳定性参数还包括单项得分标准差;
19、所述根据每个原始样本量对应的多个得分映射模型包括的所述影响因子得分,确定每个原始样本量对应的模型稳定性参数,包括:
20、针对任一原始样本量,根据该原始样本量对应的多个得分映射模型中针对同一分组的影响因子得分,确定该原始样本量对应于该同一分组的单项得分标准差。
21、可选地,所述将所述多个原始样本量中模型稳定性参数满足稳定条件且样本量最小的原始样本量确定为目标样本量,包括:
22、确定所述多个原始样本量中所有单项得分标准差小于第一目标标准差的原始样本量,得到第一样本量集合;
23、确定所述多个原始样本量中预测精度均值大于目标精度阈值的原始样本量,得到第二样本量集合;
24、确定所述多个原始样本量中预测精度标准差小于第二目标标准差的原始样本量,得到第三样本量集合;
25、确定所述第一样本量集合、所述第二样本量集合和所述第三样本量集合的交集,得到第四样本量集合;
26、将所述第四样本量集合中样本量最小的原始样本量确定为目标样本量。
27、可选地,所述采样样本包括整体满意度标签和证据权重值;
28、在根据每个原始样本量对应的重复采样次数,对所述基础样本进行重复采样,得到每个原始样本量对应的多组采样样本之前,所述方法还包括:
29、确定基础样本中每个样本的整体满意度以及与所述整体满意度关联的多个影响因子的影响因子满意度;
30、对所述影响因子满意度进行离散化,得到每个样本关于每个影响因子的原始样本分组;
31、根据预设整体满意度阈值和每个样本的整体满意度,确定基础样本中每个样本的整体满意度标签;
32、根据每个样本的整体满意度标签,得到每一个样本所对应的多个影响因子满意度在不同原始样本分组下的证据权重值。
33、根据本公开实施例的第二方面,提供一种样本量确定装置,包括:
34、第一确定模块,被配置为确定多个原始样本量对应的得分映射模型,每个所述原始样本量对应多个得分映射模型,每个所述得分映射模型表征多个影响因子满意度在不同分组下的影响因子得分;
35、第二确定模块,被配置为根据每个原始样本量对应的多个得分映射模型,确定每个原始样本量对应的模型稳定性参数;
36、第三确定模块,被配置为将所述多个原始样本量中模型稳定性参数满足稳定条件且样本量最小的原始样本量确定为目标样本量。
37、可选地,所述第一确定模块,包括:
38、获取子模块,被配置为获取基础样本、所述多个原始样本量以及每个原始样本量对应的重复采样次数;
39、第一获得子模块,被配置为根据每个原始样本量对应的重复采样次数,对所述基础样本进行重复采样,得到每个原始样本量对应的多组采样样本;
40、第二获得子模块,被配置为根据每个原始样本量对应的每一组采样样本,建立得分映射模型,得到所述多个原始样本量对应的得分映射模型。
41、可选地,所述第二获得子模块,包括:
42、训练子单元,被配置为针对任一原始样本量对应的任一组采样样本,根据该组采样样本中每一个采样样本所对应的整体满意度标签和多个影响因子满意度在不同原始样本分组下的证据权重值,对基础网络进行多轮训练,得到该组采样样本对应的整体满意度预测模型;
43、获得子单元,被配置为对该组采样样本对应的整体满意度预测模型进行得分映射,得到该组采样样本对应的得分映射模型。
44、可选地,所述模型稳定性参数包括预测精度均值和预测精度标准差;
45、所述第二确定模块,包括本文档来自技高网...
【技术保护点】
1.一种样本量确定方法,其特征在于,包括:
2.根据权利要求1所述的样本量确定方法,其特征在于,
3.根据权利要求2所述的样本量确定方法,其特征在于,
4.根据权利要求2所述的样本量确定方法,其特征在于,所述模型稳定性参数包括预测精度均值和预测精度标准差;
5.根据权利要求4所述的样本量确定方法,其特征在于,所述模型稳定性参数还包括单项得分标准差;
6.根据权利要求5所述的样本量确定方法,其特征在于,
7.根据权利要求2-6任一所述的样本量确定方法,其特征在于,所述采样样本包括整体满意度标签和证据权重值;
8.一种样本量确定装置,其特征在于,包括:
9.一种样本量确定装置,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1~7中任一项所述样本量确定方法的步骤。
【技术特征摘要】
1.一种样本量确定方法,其特征在于,包括:
2.根据权利要求1所述的样本量确定方法,其特征在于,
3.根据权利要求2所述的样本量确定方法,其特征在于,
4.根据权利要求2所述的样本量确定方法,其特征在于,所述模型稳定性参数包括预测精度均值和预测精度标准差;
5.根据权利要求4所述的样本量确定方法,其特征在于,所述模型稳定性参数还包括单项得分标准差;
6.根据权利要...
【专利技术属性】
技术研发人员:付政,
申请(专利权)人:北京小米移动软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。