一种基于数据建模的难度评估方法技术

技术编号:35340740 阅读:21 留言:0更新日期:2022-10-26 12:04
本发明专利技术公开了一种基于数据建模的难度评估方法,根据全数据域的数据,结合过程动态音频数据建立难度评估模型,将难度分为难、中、易三个区间;难度评估模型根据分值高低将对象划分不同的维度区间。本发明专利技术实现评估不同阶段的量化指标,根据量化指标为不同阶段提供分类管理、分级处遇、个性化教育矫正方案的实施、教育矫正目标的实现提供科学依据,使过程可评估、可量化,提高监管改造质量。提高监管改造质量。提高监管改造质量。

【技术实现步骤摘要】
一种基于数据建模的难度评估方法


[0001]本专利技术涉及一种评估方法,尤其涉及一种基于数据建模的难度评估方法。

技术介绍

[0002]在当前社会背景下,人员的监管工作是智慧司法工作的重要组成部分,在构建法治社会中起到举足轻重的作用。目前,尚未有方法是通过数据模型量化对象在不同阶段的难度的,无法对当前处理措施进行有效评估,就无法有效的完成相应工作,也无法提高监管改造质量;因此,亟需提供一种基于数据建模的难度评估方法,能够评估对象的监管演化过程,从而实现在特定阶段、特定时期掌握对象的难度与态度,以对当前措施进行有效评估,实时调整阶段性改造方案。

技术实现思路

[0003]为了解决上述技术所存在的不足之处,本专利技术提供了一种基于数据建模的难度评估方法。
[0004]为了解决以上技术问题,本专利技术采用的技术方案是:一种基于数据建模的难度评估方法,难度评估方法为:根据全数据域的数据,结合过程动态音频数据建立难度评估模型,将难度分为难、中、易三个区间;难度评估模型根据分值高低将对象划分不同的维度区间。
[0005]进一步地,全数据域的数据包括基础数据域、会见数据域、亲情电话数据域、生理数据域、心理数据域、惩罚数据域、消费数据域、计分考核数据域、医疗数据域、教育改造数据域。
[0006]进一步地,难度评估模型的建模步骤如下:
[0007]S1、获取全数据域的数据,设为
[0008]S2、将数据分为训练数据和测试数据
[0009]S3、对训练数据进行编码与预处理:经编码处理得到编码数据,从已编码数据中提取相关性强的特征列作为建模训练数据;
[0010]S4、采用K

means聚类得到初步标签index;
[0011]S5、给出聚类标签的权值分数Piont;
[0012]S6、基于编码数据和初步标签index进行Logistic回归,得Logistic回归模型。
[0013]进一步地,基于Logistic回归模型,获取最终得分diff_score,具体步骤如下:
[0014]S7、对测试数据进行编码与预处理:获得编码后的测试数据,将与建模训练数据相同的特征列作为测试建模数据,记为data_test;
[0015]S8、利用训练好的Logistic回归模型预测测试数据data_test中的每一样本标签权重w;
[0016]S9、将权值分数Point与标签权重w做内积得到最终得分diff_score,即:
[0017][0018]其中,w(i)为标签权重w的第i个分量,为权值分数向量的第i个分量, diff_score为最终所得难度得分。
[0019]进一步地,基于最终所得的难度得分diff_score,对难度进行评估; diff_score分值越高,说明难度越大。
[0020]进一步地,训练数据测试数据的编码处理均为:对连续型特征进行标签编码;对离散型特征进行独热编码。
[0021]进一步地,权值分数Piont的获取为:将100均分为p份,得到与初步标签向量index维度相同的k维初始权值分数向量P_vec;其中,为初始权重分数向量,对应于p类初步标签;根据K

means聚类结果,将聚类中心的特征权重按照大小排序,将P_vec重新排序给出聚类标签的权值分数Piont。
[0022]本专利技术公开了一种基于数据建模的难度评估方法,针对特定监管场所的监管人群,基于过程全数据域的数据杨过程评估在不同阶段的难度与态度,根据各个改造阶段数据变化建立不同维度的评估模型与方式方法,并与实际过程中的数据信息进行复合,实现评估对象在不同改造阶段的量化指标,根据量化指标为评估对象在不同阶段提供分类管理、分级处遇、个性化教育矫正方案的实施、教育矫正目标的实现提供科学依据,使过程可评估、可量化,提高监管改造质量。
附图说明
[0023]图1为本专利技术的难度评估方法流程图。
具体实施方式
[0024]下面结合附图和具体实施方式对本专利技术作进一步详细的说明。
[0025]本专利技术公开了一种基于数据建模的难度评估方法,是针对初期过程时难度的评估方法,根据基础数据域、会见数据域、亲情电话数据域、生理数据域、心理数据域、惩罚数据域、消费数据域、计分考核数据域、医疗数据域、教育改造数据域等结合过程动态音频数据建立难度评估模型,将难度分为难、中、易三个区间;难度评估模型根据分值高低将对象划分不同的维度区间,具体方法如下,如图1所示:
[0026]首先,设相关全数据域的数据为n=1,2,...,N;m=1,2,...,M;由N 个对象构成,每个对象包含M项特征。这M项特征在一般至少应包括:“人员 ID”,“是否成年”“民事赔偿金额”,“以前文化程度”,“现文化程度”,“参加过何党派团体”,“分管等级”,“罚金金额”,“没收财产情况”,“民族”,“性别”,“宗教信仰”,“以前婚姻状况”,“以前面貌”,“分管类型”,“户口类型”,“原始类别”,“当前状态”,“一审 X名名称”,“身高”,“体重”等。
[0027]将全数据域的数据分为训练数据和测试数据其中, n1=1,2,...,N1;n2=1,2,...,N2;N1+N2=N。
[0028]具体建模步骤如下:
[0029]一、训练模型
[0030](1)读取训练数据从管理系统获取Excel数据,利用python中pandas 包的read_csv函数读取训练数据文件得到pandas.DataFrame类型数据
[0031](2)训练数据编码。对连续型特征进行标签编码,将特征的取值替换成连续的数值型变量,不会增加模型复杂度,简单易实现,可解释性强。对离散型特征进行独热编码,独热编码是离散特征有多少取值,就用多少维向量来表示该特征,独热编码可以让特征之间距离技术更加合理。训练数据编码记为 coded_data_tr。
[0032](3)建模特征提取。通过相关专家及管理人员获取建模过程中与质量相关性强的特征列,从已编码数据coded_data_tr中提取这些相关性强的特征列作为建模训练数据,记为data_train。
[0033](4)K

means聚类。利用K

means聚类将建模训练数据data_train分为p类,得到初步标签列“index”。
[0034](5)将100均分为p份,得到与初步标签向量“index”维度相同的k维初始权值分数向量P_vec。其中,为初始权重分数向量,对应于p类初步标签;根据K

means聚类结果,将聚类中心的特征权重按照大小排序,将P_vec重新排序给出聚类标签的权值分数Piont。其中,Piont为p维向量,且每一分量介于0至100之间。
[0035](6)Logistic回归。基于提取好的建模训练数据data_train和数据标签index 训练Logistic回归模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据建模的难度评估方法,其特征在于:难度评估方法为:根据全数据域的数据,结合过程动态音频数据建立难度评估模型,将难度分为难、中、易三个区间;难度评估模型根据分值高低将对象划分不同的维度区间。2.根据权利要求1所述的基于数据建模的难度评估方法,其特征在于:全数据域的数据包括基础数据域、会见数据域、亲情电话数据域、生理数据域、心理数据域、惩罚数据域、消费数据域、计分考核数据域、医疗数据域、教育改造数据域。3.根据权利要求2所述的基于数据建模的难度评估方法,其特征在于:难度评估模型的建模步骤如下:S1、获取全数据域的数据,设为S2、将数据分为训练数据和测试数据S3、对训练数据进行编码与预处理:经编码处理得到编码数据,从已编码数据中提取相关性强的特征列作为建模训练数据;S4、采用K

means聚类得到初步标签index;S5、给出聚类标签的权值分数Piont;S6、基于编码数据和初步标签index进行Logistic回归,得Logistic回归模型。4.根据权利要求3所述的基于数据建模的难度评估方法,其特征在于:基于Logistic回归模型,获取最终得分diff_score,具体步骤如下:S7、对测试数据进行编码与预处理:获得编码后的测...

【专利技术属性】
技术研发人员:程立亮奚军庆贾继伟李绍俊庞景秋齐井春陈兴钰崔放李忆平
申请(专利权)人:长春嘉诚信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1