本发明专利技术涉及大数据分析领域,公开了一种基于跨模态数据的警情分析方法及系统,所述方法包括获取人物图谱数据和线索文本数据。对所述人物图谱数据和线索文本数据进行特征提取,得到人物图谱特征和线索文本特征。分别对所述人物图谱特征和所述线索文本特征进行编码,得到人物图谱编码和线索文本编码。对所述人物图谱编码和所述线索文本编码进行融合,得到融合编码向量。将所述融合编码向量输入训练好的分类网络进行处理,所述分类网络输出警情类别概率。本发明专利技术充分利用了多种模态的数据,避免了需获取大量专家知识,能够提高警情分析的精度、准确率和效率。准确率和效率。准确率和效率。
【技术实现步骤摘要】
一种基于跨模态数据的警情分析方法及系统
[0001]本专利技术涉及大数据分析领域,更具体地,涉及一种基于跨模态数据的警情分析方法及系统。
技术介绍
[0002]在公安系统中,需要从获取的大量的数据进行警情分析,判断警情发生的类型和概率。目前警情分析主要还是依赖人工进行数据的分析,但随着数据增长速度的加快,人工处理警情数据效率较低,且容易忽略和耽误一些重要的警情。
[0003]目前,李昀轩等学者提出了一种基于多任务迁移学习的交通警情信息自动处理方法,其通过使用人工智能中处理自然语言的模型对警情文本进行特征提取后,利用所述特征进行分类任务,得到警情类型并执行相应的策略。
[0004]然而,上述方法在针对单一文本模态数据进行警情分析,所得到的警情分析结果存在精度低和不准确的缺陷。
技术实现思路
[0005]本专利技术为克服现有警情分析技术存在的精度低且分析结果不准确的缺陷,提供一种基于跨模态数据的警情分析方法及系统。
[0006]为解决上述技术问题,本专利技术的技术方案如下:
[0007]第一个方面,本专利技术提出一种基于跨模态数据的警情分析方法,包括:
[0008]获取人物图谱数据和线索文本数据。
[0009]对所述人物图谱数据和线索文本数据进行特征提取,得到人物图谱特征和线索文本特征。
[0010]分别对所述人物图谱特征和所述线索文本特征进行编码,得到人物图谱编码和线索文本编码。
[0011]对所述人物图谱编码和所述线索文本编码进行融合,得到融合编码向量。
[0012]将所述融合编码向量输入训练好的分类网络进行处理,所述分类网络输出警情类别概率。
[0013]作为优选的技术方案,使用标准Transformer模型中的编码器分别对所述人物图谱特征和所述线索文本特征进行编码,得到人物图谱编码和线索文本编码,具体的步骤包括:
[0014]分别对所述人物图谱特征和所述线索文本特征进行线性变换,得到人物图谱特征和线索文本特征对应的查询矩阵Q、键矩阵K和值矩阵V;
[0015]将查询矩阵Q、键矩阵K和值矩阵V输入多头注意力模块进行自注意力机制学习,分别得到人物图谱特征和线索文本特征对应的自注意力矩阵,其表达式如下所示:
[0016][0017]其中,K
T
表示键矩阵K的转置,d
K
表示键矩阵K的维度;
[0018]对人物图谱特征和线索文本特征对应的自注意力矩阵依次进行求和以及归一化,将归一化结果输入全连接网络进行计算,得到人物图谱编码和线索文本编码。
[0019]作为优选的技术方案,所述全连接网络包括依次连接的一层全连接层、激活层、一层全连接层和归一化层;所述激活层的激活函数的表达式如下所示:
[0020]Relu(x)=max(0,x)
[0021]其中,x表示自注意力矩阵中的一个向量。
[0022]作为优选的技术方案,对所述人物图谱编码和所述线索文本编码进行融合,得到融合编码向量,具体的步骤包括:
[0023]定义m组可学习的z向量;所述z向量的维度与所述人物图谱编码和所述线索文本编码的维度相同;
[0024]使用m组z向量分别对所述人物图谱编码和所述线索文本编码进行注意力机制学习,并将该注意力机制学习结果依次进行求和以及归一化,得到m组融合信息;
[0025]对所述人物图谱编码进行自注意力机制学习,并将人物图谱编码的自注意力机制学习结果进行归一化,得到第一自注意力向量;
[0026]对所述线索文本编码进行自注意力机制学习,并将线索文本编码的自注意力机制学习结果进行归一化,得到第二自注意力向量;
[0027]使用m组融合信息对所述第一自注意力向量进行注意力机制学习,并将注意力机制学习结果依次进行求和以及归一化,得到第一自注意力融合向量;
[0028]使用m组融合信息对所述第二自注意力向量进行注意力机制学习,并将注意力机制学习结果依次进行求和以及归一化,得到第二自注意力融合向量;
[0029]对所述第一自注意力融合向量和第二自注意力融合向量进行求和并取平均值,得到融合编码向量。
[0030]作为优选的技术方案,所述分类网络包括依次连接的一层全连接层和Softmax激活层;所述融合编码向量传输至所述全连接层进行分类,并将分类结果传输至所述Softmax激活层进行激活,得到警情类别概率。
[0031]作为优选的技术方案,在得到人物图谱特征和线索文本特征之后,所述方法还包括:将所述人物图谱特征和所述线索文本特征映射到相同的维度。
[0032]作为优选的技术方案,在得到融合编码向量之后,所述方法还包括:对分类网络进行训练,直至分类网络的损失函数收敛,得到训练好的分类网络。
[0033]作为优选的技术方案,所述损失函数为交叉熵损失函数。
[0034]作为优选的技术方案,所述交叉熵损失函数的表达式如下所示:
[0035][0036]其中,M为警情类别的总数量,y
c
表示类别c的真实标签的概率,p
c
表示类别c的预测概率。
[0037]第二个方面,本专利技术还提出一种基于跨模态数据的警情分析系统,包括:
[0038]获取模块,用于获取人物图谱数据和线索文本数据。
[0039]提取模块,用于对所述人物图谱数据和线索文本数据进行特征提取,得到人物图谱特征和线索文本特征。
[0040]编码模块,用于分别对所述人物图谱特征和所述线索文本特征进行编码,得到人物图谱编码和线索文本编码。
[0041]融合模块,用于对所述人物图谱编码和所述线索文本编码进行融合,得到融合编码向量。
[0042]分类模块,用于将所述融合编码向量输入训练好的分类网络进行处理,所述分类网络输出警情类别概率。
[0043]与现有技术相比,本专利技术技术方案的有益效果是:本专利技术通过对人脸图谱和案件线索文本两种跨模态数据进行处理,分别对人物图谱数据和线索文本数据进行编码,然后对两种模态的人物图谱编码和线索文本编码进行融合编码向量,利用得到的表示联合信息的融合编码向量经过一个分类网络得到相应的警情类型,充分利用了多种模态的数据,避免了需获取大量专家知识,能够提高警情分析的精度、准确率和效率。
附图说明
[0044]图1为本申请实施例的基于跨模态数据的警情分析方法的流程图。
[0045]图2为本申请实施例的获取融合编码向量的流程图。
[0046]图3为本申请实施例的基于跨模态数据的警情分析系统的架构图。
具体实施方式
[0047]附图仅用于示例性说明,不能理解为对本专利的限制;
[0048]下面结合附图和实施例对本专利技术的技术方案做进一步的说明。
[0049]实施例一
[0050]请参阅图1,本实施例提出一种基于跨模态数据的警情分析方法,包括:
[0051]获取人物图谱数据和线索文本数本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于跨模态数据的警情分析方法,其特征在于,包括:获取人物图谱数据和线索文本数据;对所述人物图谱数据和线索文本数据进行特征提取,得到人物图谱特征和线索文本特征;分别对所述人物图谱特征和所述线索文本特征进行编码,得到人物图谱编码和线索文本编码;对所述人物图谱编码和所述线索文本编码进行融合,得到融合编码向量;将所述融合编码向量输入训练好的分类网络进行处理,所述分类网络输出警情类别概率。2.根据权利要求1所述的基于跨模态数据的警情分析方法,其特征在于,使用标准Transformer模型中的编码器分别对所述人物图谱特征和所述线索文本特征进行编码,得到人物图谱编码和线索文本编码,具体的步骤包括:分别对所述人物图谱特征和所述线索文本特征进行线性变换,得到人物图谱特征和线索文本特征对应的查询矩阵Q、键矩阵K和值矩阵V;将查询矩阵Q、键矩阵K和值矩阵V输入多头注意力模块进行自注意力机制学习,分别得到人物图谱特征和线索文本特征对应的自注意力矩阵,其表达式如下所示:其中,K
T
表示键矩阵K的转置,d
K
表示键矩阵K的维度;对人物图谱特征和线索文本特征对应的自注意力矩阵依次进行求和以及归一化,将归一化结果输入全连接网络进行计算,得到人物图谱编码和线索文本编码。3.根据权利要求2所述的基于跨模态数据的警情分析方法,其特征在于,所述全连接网络包括依次连接的一层全连接层、激活层、一层全连接层和归一化层;所述激活层的激活函数的表达式如下所示:Relu(x)=max(0,x)其中,x表示自注意力矩阵中的一个向量。4.根据权利要求2所述的基于跨模态数据的警情分析方法,其特征在于,对所述人物图谱编码和所述线索文本编码进行融合,得到融合编码向量,具体的步骤包括:定义m组可学习的z向量;所述z向量的维度与所述人物图谱编码和所述线索文本编码的维度相同;使用m组z向量分别对所述人物图谱编码和所述线索文本编码进行注意力机制学习,并将该注意力机制学习结果依次进行求和以及归一化,得到m组融合信息;对所述人物图谱编码进行自注意力机制学习,并将人物图谱编码的自注意力机制学习结果进行归一化,得到第一自注意力向量;对所述线索文本编...
【专利技术属性】
技术研发人员:周凡,林淑金,苏卓,
申请(专利权)人:中山大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。