基于深度学习模型接处警文本户籍地信息提取方法和装置制造方法及图纸

技术编号:29254182 阅读:14 留言:0更新日期:2021-07-13 17:24
本公开实施例公开了基于深度学习模型接处警文本户籍地信息提取方法和装置。该方法的一具体实施方式包括:获取待提取户籍地信息接处警文本;对上述待提取户籍地信息接处警文本进行切词得到相应的分词序列;对于所得到的分词序列中的每个分词,执行以下户籍地信息分类操作:将该分词对应的词向量输入户籍地信息分类模型,得到该分词是否为户籍地信息的分类结果,其中,上述户籍地信息分类模型是基于深度学习模型预先训练得到的;根据上述分词序列中相应的分类结果为用于指示是户籍地信息的各分词确定上述待提取户籍地信息接处警文本对应的户籍地信息集合。该实施方式实现了自动提取接处警文本中的户籍地信息。

【技术实现步骤摘要】
基于深度学习模型接处警文本户籍地信息提取方法和装置
本公开实施例涉及计算机
,具体涉及基于深度学习模型接处警文本户籍地信息提取方法和装置。
技术介绍
目前,公安机关的110接警员在接警时会录入接警文本。处警员在处警结束后会录入处警文本。接处警文本即包括上述接警文本和处警文本。实践中,大量接处警文本中会涉及关于涉案人员的户籍地信息的描述。其中,户籍地信息可以包括户籍地标识和对应的户籍地地址。例如,“现籍甲省乙市丙小区五号楼一单元202”为一条户籍地信息,其中,“现籍”为户籍地标识,用于指示其后面内容为“现籍”对应的户籍地地址,而“甲省乙市丙小区五号楼一单元202”则为“现籍”对应的户籍地地址。又例如,“祖籍甲省乙市丙小区六号楼二单元301”也是一条户籍地信息,其中,“祖籍”为户籍地标识,用于指示其后面内容为对应的户籍地地址,而“甲省乙市丙小区六号楼二单元301”则为“祖籍”对应的户籍地地址。对于案情分析人员而言,提取出接处警文本中的户籍地信息是非常重要的。例如,案情分析员可以根据大量的历史接处警文本中提取的户籍地信息进行统计分析,以得出某省某地市的指定类型犯罪人员相关信息,进而可以对未来对户籍地址为该省该地市的人员管理提供数据依据。目前,大都采用人工提取接处警文本中的户籍地信息,然而凭人工提取接处警文本中的户籍地信息的人工成本太高且依赖于个人经验。
技术实现思路
本公开实施例提出了基于深度学习模型接处警文本户籍地信息提取方法和装置。第一方面,本公开实施例提供了一种基于深度学习模型的接处警文本户籍地信息提取方法,该方法包括:获取待提取户籍地信息接处警文本;对上述待提取户籍地信息接处警文本进行切词得到相应的分词序列;对于所得到的分词序列中的每个分词,执行以下户籍地信息分类操作:将该分词对应的词向量输入户籍地信息分类模型,得到该分词是否为户籍地信息的分类结果,其中,上述户籍地信息分类模型是基于深度学习模型预先训练得到的;根据上述分词序列中相应的分类结果为用于指示是户籍地信息的各分词确定上述待提取户籍地信息接处警文本对应的户籍地信息集合。在一些实施例中,上述基于深度学习模型的户籍地信息分类模型是通过如下训练步骤预先训练得到的:获取训练样本集合,其中,训练样本包括对历史接处警文本进行切词所得到的分词序列以及与该分词序列对应的标注信息序列,其中,标注信息用于指示分词序列中相应分词是否为户籍地信息;将上述训练样本集合中相应分词序列包括户籍地信息分词的各训练样本确定为正样本集合,其中,户籍地信息分词为分词序列中相应的标注信息指示该分词为户籍地信息的分词;根据上述正样本集合中每个正样本的分词序列所包括的各户籍地信息分词,确定该正样本的文本特征向量;以上述正样本集合中正样本的文本特征向量作为输入,以用于指示是户籍地信息的分类结果作为相应期望输出,训练初始深度学习模型,得到上述户籍地信息分类模型。在一些实施例中,上述训练步骤还包括:将预设负样本特征向量输入上述户籍地信息分类模型得到相应实际输出结果;根据所得到的实际输出结果和用于指示不是户籍地信息的分类结果之间的差异调整上述户籍地信息分类模型的模型参数。在一些实施例中,上述根据上述正样本集合中每个正样本的分词序列所包括的各户籍地信息分词,确定该正样本的文本特征向量,包括:对于上述正样本集合中的每个正样本,执行以下向量生成及赋值操作:生成与该正样本对应的文本特征向量,其中,所生成的文本特征向量中的各分量分别与预设词典中的各词语一一对应;对于该正样本的分词序列中的每个户籍地信息分词,将所生成的文本特征向量中与该户籍地信息分词对应的分量设置为该户籍地信息分词的词频-逆文本频率指数TF-IDF;以及将所生成的文本特征向量中的各未赋值分量设置为预设数值,未赋值分量为属于上述预设词典但不属于该正样本的分词序列中的各户籍地信息分词的词语对应的分量。第二方面,本公开实施例提供了一种基于深度学习模型的接处警文本户籍地信息提取装置,该装置包括:获取单元,被配置成获取待提取户籍地信息接处警文本;切词单元,被配置成对上述待提取户籍地信息接处警文本进行切词得到相应的分词序列;分类单元,被配置成对于所得到的分词序列中的每个分词,执行以下户籍地信息分类操作:将该分词对应的词向量输入户籍地信息分类模型,得到该分词是否为户籍地信息的分类结果,其中,上述户籍地信息分类模型是基于深度学习模型预先训练得到的;确定单元,被配置成根据上述分词序列中相应的分类结果为用于指示是户籍地信息的各分词确定上述待提取户籍地信息接处警文本对应的户籍地信息集合。在一些实施例中,上述基于深度学习模型的户籍地信息分类模型是通过如下训练步骤预先训练得到的:获取训练样本集合,其中,训练样本包括对历史接处警文本进行切词所得到的分词序列以及与该分词序列对应的标注信息序列,其中,标注信息用于指示分词序列中相应分词是否为户籍地信息;将上述训练样本集合中相应分词序列包括户籍地信息分词的各训练样本确定为正样本集合,其中,户籍地信息分词为分词序列中相应的标注信息指示该分词为户籍地信息的分词;根据上述正样本集合中每个正样本的分词序列所包括的各户籍地信息分词,确定该正样本的文本特征向量;以上述正样本集合中正样本的文本特征向量作为输入,以用于指示是户籍地信息的分类结果作为相应期望输出,训练初始深度学习模型,得到上述户籍地信息分类模型。在一些实施例中,上述训练步骤还包括:将预设负样本特征向量输入上述户籍地信息分类模型得到相应实际输出结果;根据所得到的实际输出结果和用于指示不是户籍地信息的分类结果之间的差异调整上述户籍地信息分类模型的模型参数。在一些实施例中,上述根据上述正样本集合中每个正样本的分词序列所包括的各户籍地信息分词,确定该正样本的文本特征向量,包括:对于上述正样本集合中的每个正样本,执行以下向量生成及赋值操作:生成与该正样本对应的文本特征向量,其中,所生成的文本特征向量中的各分量分别与预设词典中的各词语一一对应;对于该正样本的分词序列中的每个户籍地信息分词,将所生成的文本特征向量中与该户籍地信息分词对应的分量设置为该户籍地信息分词的词频-逆文本频率指数TF-IDF;以及将所生成的文本特征向量中的各未赋值分量设置为预设数值,未赋值分量为属于上述预设词典但不属于该正样本的分词序列中的各户籍地信息分词的词语对应的分量。第三方面,本公开实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。第四方面,本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被一个或多个处理器执行时实现如第一方面中任一实现方式描述的方法。现有技术中一般是通过人工提取接处警文本中的户籍地信息,可能存在以下问题:(1)历史遗留有大量未曾被提取户籍地信息的接处警文本,以及随着时间的推移接警处警员每天都会录入新的大量接处警文本,导致接处警文本待提取户本文档来自技高网...

【技术保护点】
1.一种基于深度学习模型的接处警文本户籍地信息提取方法,包括:/n获取待提取户籍地信息接处警文本;/n对所述待提取户籍地信息接处警文本进行切词得到相应的分词序列;/n对于所得到的分词序列中的每个分词,执行以下户籍地信息分类操作:将该分词对应的词向量输入户籍地信息分类模型,得到该分词是否为户籍地信息的分类结果,其中,所述户籍地信息分类模型是基于深度学习模型预先训练得到的;/n根据所述分词序列中相应的分类结果为用于指示是户籍地信息的各分词确定所述待提取户籍地信息接处警文本对应的户籍地信息集合。/n

【技术特征摘要】
20200213 CN 20201009129491.一种基于深度学习模型的接处警文本户籍地信息提取方法,包括:
获取待提取户籍地信息接处警文本;
对所述待提取户籍地信息接处警文本进行切词得到相应的分词序列;
对于所得到的分词序列中的每个分词,执行以下户籍地信息分类操作:将该分词对应的词向量输入户籍地信息分类模型,得到该分词是否为户籍地信息的分类结果,其中,所述户籍地信息分类模型是基于深度学习模型预先训练得到的;
根据所述分词序列中相应的分类结果为用于指示是户籍地信息的各分词确定所述待提取户籍地信息接处警文本对应的户籍地信息集合。


2.根据权利要求1所述的方法,其中,所述基于深度学习模型的户籍地信息分类模型是通过如下训练步骤预先训练得到的:
获取训练样本集合,其中,训练样本包括对历史接处警文本进行切词所得到的分词序列以及与该分词序列对应的标注信息序列,其中,标注信息用于指示分词序列中相应分词是否为户籍地信息;
将所述训练样本集合中相应分词序列包括户籍地信息分词的各训练样本确定为正样本集合,其中,户籍地信息分词为分词序列中相应的标注信息指示该分词为户籍地信息的分词;
根据所述正样本集合中每个正样本的分词序列所包括的各户籍地信息分词,确定该正样本的文本特征向量;
以所述正样本集合中正样本的文本特征向量作为输入,以用于指示是户籍地信息的分类结果作为相应期望输出,训练初始深度学习模型,得到所述户籍地信息分类模型。


3.根据权利要求2所述的方法,其中,所述训练步骤还包括:
将预设负样本特征向量输入所述户籍地信息分类模型得到相应实际输出结果;
根据所得到的实际输出结果和用于指示不是户籍地信息的分类结果之间的差异调整所述户籍地信息分类模型的模型参数。


4.根据权利要求2或3所述的方法,其中,所述根据所述正样本集合中每个正样本的分词序列所包括的各户籍地信息分词,确定该正样本的文本特征向量,包括:
对于所述正样本集合中的每个正样本,执行以下向量生成及赋值操作:生成与该正样本对应的文本特征向量,其中,所生成的文本特征向量中的各分量分别与预设词典中的各词语一一对应;对于该正样本的分词序列中的每个户籍地信息分词,将所生成的文本特征向量中与该户籍地信息分词对应的分量设置为该户籍地信息分词的词频-逆文本频率指数TF-IDF;以及将所生成的文本特征向量中的各未赋值分量设置为预设数值,未赋值分量为属于所述预设词典但不属于该正样本的分词序列中的各户籍地信息分词的词语对应的分量。


5.一种基于深度学习模型的接处警文本户籍地信息提取装置,包括:
获取单元,被配置成获取待提取户籍地信息接处警文本;
切词单元,被配置成对所述待提取户...

【专利技术属性】
技术研发人员:彭涛张鹏杨欣雨
申请(专利权)人:北京明亿科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1