System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及大数据分析领域,尤其涉及一种基于机器学习的矛盾纠纷事件升级预测方法。
技术介绍
1、在日常的出警事件中,大部分是人与人之间的矛盾纠纷事件,而该类事件一般情况经过调解都能简单的解决,但是有些矛盾纠纷事件由于各种因素,经过调解后,后续会进一步升级,导致严重的社会治安事件,严重影响社会安全。
2、然而,目前针对社会矛盾纠纷预警的相关技术中,需要考虑的因素较多,无法靠人工判断哪个事件容易进行升级,缺乏对异常事件的矛盾纠纷升级化的预警,即并不能够实现对可能存在的矛盾升级进行提前预警。
技术实现思路
1、为了解决上述问题,本专利技术的目的在于提供一种基于机器学习的矛盾纠纷事件升级预测方法,实现对可能存在的矛盾升级进行提前预测。
2、为实现上述目的,本专利技术采用以下技术方案:
3、一种基于机器学习的矛盾纠纷事件升级预测方法,包括以下步骤:
4、步骤s1:获取矛盾纠纷事件相关人员的特征信息数据,并预处理;
5、步骤s2:对预处理后的特征信息数据进行特征编码;
6、步骤s3:基于卡方检验选择相关性最高的若干个特征;
7、步骤s4:基于类别分布算法对选择出来的若干个特征进行过采样,构建训练数据集和测试数据集;
8、步骤s5:构建k-nearest neighbor模型,并基于训练数据集训练,得到预测模型;
9、步骤s6:将新的矛盾纠纷事件相关人员的特征信息数据经过步骤s1-s3的
10、进一步的,所述特征信息数据包括13类特征信息,包括:年龄、酒店上网次数、网吧上网次数、性别、学历、婚姻情况、父母情况、兄弟情况、姐妹情况、子女情况、从事职业。
11、进一步的,所述预处理具体为:
12、针对采集到的13类特征信息,年龄、酒店上网次数、网吧上网次数的缺失值均采用平均值进行填充;
13、针对性别、学历、婚姻情况、父母情况、兄弟情况、姐妹情况、子女情况、从事职业均增加其他字典项;
14、并针对采集数据不规整的情况选择将相关字典项进行合并。
15、进一步的,所述步骤s2具体为:
16、根据数据中的数据类型进行特征编码,针对年龄、酒店上网次数、网吧上网次数特征采用minmaxscaler归一化算法将所有年龄缩放至0~1之间;
17、针对字典类型特征采用独热编码算法进行编码:
18、(1)对于每个字典类型特征,找出所有不重复的类别;
19、(2)对于每个样本,根据其字典类型特征的值,找到对应的类别;
20、(3)对于每个类别,创建一个二进制向量,长度为类别总数;
21、(4)将对应类别的位置设为1,其他位置设为0;
22、(5)将所有的二进制向量连接起来,得到独热编码矩阵;
23、针对结果类型进行labelencoder编码进行编码:
24、找出结果类型的所有不重复类别;
25、对于每个类别,分配一个唯一的整数值;
26、将每个样本的结果类型替换为对应的整数值。
27、进一步的,所述步骤s3具体为:
28、使用selectkbest算法,并指定score_func参数为chi2;
29、将特征编码后的特征信息数据作为输入,对特征进行分组,每个组代表一个类别;
30、计算每个特征在每个类别中的观测频数oij;
31、计算每个特征在每个类别中的期望频数eij;
32、 根据公式计算所有特征的 chi2 值:
33、chi2 = sum((oij - eij)^2 / eij)
34、其中,oij表示第i个特征在第j个类别中的观测频数,eij表示第i个特征在第j个类别中的期望频数;
35、对所有特征的chi2值进行排序,选择排名前h个得分最高的特征。
36、进一步的,所述类别分布算法,具体为:
37、计算矛盾纠纷事件未升级样本数量n_majority和矛盾纠纷事件升级数量n_minority;
38、计算类别分布差异性因子d_factor = n_majority / n_minority;
39、对于矛盾纠纷事件升级事件的每个样本,计算该样本的过采样倍数oversampling_factor = d_factor - 1。
40、生成oversampling_factor个新的合成样本,作为最终的矛盾纠纷事件升级样本集。
41、进一步的,所述步骤s5具体为:
42、构建k-nearest neighbor模型,指定g值和距离度量方法为闵可夫斯基距离;
43、d(x, y) = (sum(|xi - yi|^p))^(1/p)
44、其中,x和y分别表示两个样本向量的特征值,xi和yi分别表示两个样本向量的第i个特征值,p表示闵可夫斯基距离的阶数;g值表示预测时选择的最近邻居的数量;
45、使用训练集数据拟合knn模型,得到预测模型。
46、进一步的,所述g值的获取,具体如下:
47、将训练数据集划分为k个折,对于每个k折数据集,将其中一个折作为验证集,其余折作为训练集,对于每个可能的g值,重复以下步骤:
48、(1)使用k-1个折的数据作为训练集,训练knn模型;
49、(2)使用剩下的一个折作为验证集,评估模型的性能;
50、(3)对于每个g值,计算模型在验证集上的性能指标的平均值;
51、(4)选择具有最高性能指标平均值的g值作为最优g值;
52、(5)使用最优g值重新训练knn模型,使用所有训练数据,得到预测模型。
53、本专利技术具有如下有益效果:
54、1、本专利技术基于13类特征信息,并对不同类型的特征信息进行不同的预处理,提升数据的准确度,综合考虑多方面影响因素,对矛盾升级进行提前预测,可靠性,准确性高;
55、2、由于矛盾纠纷事件升级为恶性事件的比例可能非常低,导致正负样本不平衡,本专利技术基于类别分布算法对样本数据进行处理,处理样本不平衡问题,以提高模型的预测能力。
本文档来自技高网...【技术保护点】
1.基于机器学习的矛盾纠纷事件升级预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于机器学习的矛盾纠纷事件升级预测方法,其特征在于,所述特征信息数据包括13类特征信息,包括:年龄、酒店上网次数、网吧上网次数、性别、学历、婚姻情况、父母情况、兄弟情况、姐妹情况、子女情况、从事职业。
3.根据权利要求2所述的基于机器学习的矛盾纠纷事件升级预测方法,其特征在于,所述预处理具体为:
4.根据权利要求3所述的基于机器学习的矛盾纠纷事件升级预测方法,其特征在于,所述步骤S2具体为:
5.根据权利要求1所述的基于机器学习的矛盾纠纷事件升级预测方法,其特征在于,所述步骤S3具体为:
6.根据权利要求1所述的基于机器学习的矛盾纠纷事件升级预测方法,其特征在于,所述步骤S5具体为:
7.根据权利要求6所述的基于机器学习的矛盾纠纷事件升级预测方法,其特征在于,所述G值的获取,具体如下:
【技术特征摘要】
1.基于机器学习的矛盾纠纷事件升级预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于机器学习的矛盾纠纷事件升级预测方法,其特征在于,所述特征信息数据包括13类特征信息,包括:年龄、酒店上网次数、网吧上网次数、性别、学历、婚姻情况、父母情况、兄弟情况、姐妹情况、子女情况、从事职业。
3.根据权利要求2所述的基于机器学习的矛盾纠纷事件升级预测方法,其特征在于,所述预处理具体为:
4...
【专利技术属性】
技术研发人员:蓝永文,郑子健,冯惠斌,
申请(专利权)人:福建天创信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。