System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,具体涉及一种基于决策树的客户信息数据校验模型训练方法。
技术介绍
1、目前电力企业客户档案信息中存在一定比例联系方式不匹配的问题,主要表现为户号登记的电话号码与当前实际居住客户的电话号码不一致,导致客服中心在开展催费或业务营销等活动中联系到错误用户,进而产生客户投诉风险,因此需要尽可能找到存在号码不匹配的客户,并通过验证完善客户联系信息以提供数据支持。在缺乏自动化工具或方法来识别客户联系方式是否准确的情况下,业务人员需要首先按照定义好的规则,如统计客户各联系方式关联客户数,根据不同的频次划分选择人工外呼和智能机器人外呼,以实现全量外呼验证联系方式是否准确。如附图1所示,过程如下:
2、a.规则预定义与统计,根据预定义的规则统计指标,如统计客户各联系方式关联的客户数量;b.根据指标的数据选择处理方式,如联系方式关联的客户数量是否小于等于5;c.执行智能外呼或人工外呼,根据不同的条件,使用智能外呼系统联系客户或者人工外呼情况较为复杂的客户;d记录与验证,记录外呼结果,如果外呼结果错误则检查是否有其他联系方式,如有其他联系方式则重复执行过程b的规则判断;e.客户核实标记和信息维护,根据联系方式的正确性,将客户标记为已核实或未核实,并在数据库中维护客户信息。
3、人工外呼效率低下,成本较高,智能机器人外呼虽然效率偏高,但可能会因为缺乏人性化的互动而影响客户的整体体验。
技术实现思路
1、本专利技术提出来了一个基于量化模型的客户信息数据校验模型
2、一种基于决策树的客户信息数据校验模型训练方法,包括如下过程:
3、s100:数据收集,通过客服中心智能外呼技术,收集人工催费工作中客户反映的联系方式错误的工单,并分析错误信息的特点;
4、s200:基于目标客户的客户画像,收集客户用电行为模式、历史服务、档案信息,并通过客户信息及外呼结果形成数据集;
5、s300:基于卡方独立性检验进行特征相关性分析,开展初步的特征筛选,计算各指标与校验结果相关性,筛选与客户联系方式准确性高度相关的特征;
6、s400:根据初步的卡方独立性检验,选择决策树模型对初筛后的特征进行模型训练;具体过程包括:
7、s410:在初期特征选择阶段综合运用了信息增益、增益率和基尼不纯度三种指标,以多角度评估特征对模型的贡献,从而进行特征的有效划分和选择;
8、s420:通过递归的方式进行特征选择,不断分裂节点,直到满足特定的停止条件;
9、s430:通过网格搜索系统地遍历多个超参数的组合,优化模型的泛化能力,具体超参数包括:分裂策略splitter、分裂标准criterion、最大深度max_depth、分裂最小样本数min_samples_split、最大特征数max_features、叶子最小样本数min_samples_leaf;
10、s440:模型的评价指标包括:总体准确率、召回率、精准率和外呼占比,并将其分别加入到网格搜索的目标分数中,以最大化评价指标,具体指标评价公式如下表1所示。
11、表1评价指标计算公式
12、 指标 计算公式 指标意义 总体准确率 (tp+tn)/(tp+fn+fp+tn) 总体预测准确情况 召回率(r) tn/(tn+fp) 能够找出的真实错误客户比例 精准率(p) tn/(tn+fn) 衡量模型效率 外呼占比 (fn+tn)/(tp+fn+fp+tn) 衡量模型可以减少的外呼量
13、优选的,所述s300包括如下过程:
14、s310:构建卡方独立性检验的陈述假设,
15、原假设h0:即某个客户行为特征或者档案信息和外呼号码是否与客户匹配的分类之间没有关联,它们之间是独立的;
16、备择假设h1:特征和目标分类之间存在关联;
17、s320:创建列联表,构建一个矩阵来呈现观察结果,其中一个变量定义行,另一个变量定义列,每个表格单元格显示与变量类别的特定组合相对应的观察频率;
18、s330:计算卡方统计量,具体公式:
19、
20、其中,o是观察频数,即:实际数据中的频数,e是期望频数,具体公式:
21、s330:根据卡方分布评估检验统计量以找到p值,该值将指示检验的统计显著性;如果p值小于选择的显著性水平,则拒绝h0,说明检验的某个客户行为特征或者档案信息和目标分类高度相关。
22、优选的,所述s410包括如下过程:
23、s411:具体的信息增益特征选择方式如下公式所示:
24、
25、其中,pi是数据集中第i类样本的比例;h(t)是数据集t的熵;
26、h(tv)是子集tv的熵;values(a)是所有特征的特征集合;tv
27、是数据集中特征a取值为v的子集;
28、ig(t,a)是特征a对于数据集t的信息增益;
29、s412:具体的增益率特征选择方式如下公式所示:
30、
31、
32、其中,iv(a)是特征a的固有值,通过占比计算;
33、gr(t,a)是特征a对数据集的增益率;
34、s413:具体的基尼不纯度特征选择方式如下公式所示:
35、
36、其中,gini(t)是数据集t的基尼不纯度;gini(tv)是数据集tv的基尼不纯度;
37、gini_gain(t,a)是特征a对数据集t基尼不纯度的减少量。
38、本专利技术相对于现有技术的优点在于:专利技术通过深入分析客户档案中的多个维度信息,构建了一个基于决策树算法的模型,旨在识别和判断客户档案中是否存在错误的联系方式。本专利技术集成了特征选择、特征分类和分类预测等,通过对客户档案信息进行深度挖掘和分析,实现客户联系方式的自动校验。
本文档来自技高网...【技术保护点】
1.一种基于决策树的客户信息数据校验模型训练方法,其特征在于,包括如下过程:
2.根据权利要求1所述一种基于决策树的客户信息数据校验模型训练方法,其特征在于,所述S300包括如下过程:
3.根据权利要求1所述一种基于决策树的客户信息数据校验模型训练方法,其特征在于,所述S410包括如下过程:
【技术特征摘要】
1.一种基于决策树的客户信息数据校验模型训练方法,其特征在于,包括如下过程:
2.根据权利要求1所述一种基于决策树的客户信息数据校验模型训练方法,...
【专利技术属性】
技术研发人员:李艳艳,严佳梅,陈玲玲,徐梦舟,冯柳鑫,王笑一,李雪,吴敌,张鑫,张展鹏,
申请(专利权)人:国家电网有限公司客户服务中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。