一种基于CRF算法的公安案件及口供文本的命名提取方法及其装置制造方法及图纸

技术编号:22642194 阅读:52 留言:0更新日期:2019-11-26 16:17
本发明专利技术涉及自然语言处理技术领域,具体公开了一种基于CRF算法的公安案件及口供文本的命名提取方法及其装置,方法包括获取公安案件文本及案件口供的数据信息,将案件文本及案件口供对应整合形成一文本数据,并存储一数据表中以进行标注;将案件文本及案件口供对应整合形成的文本数据进行实体词标注;进行词性标注,根据标注提取特征以建立基本特征模板;将基本特征模板和公安案件文本及案件口供的语料输入CRF算法模型进行训练,获得命名提取模型;建立公安监控范围内城市街道情况的信息数据表;通过命名提取模型对新增案件文本及口供信息识别,并对应映射至城市街道情况的信息数据表进行信息提取,提高办公效率。

A named extraction method and device of public security case and Confession text based on CRF algorithm

The invention relates to the field of natural language processing technology, in particular to a CRF algorithm based naming extraction method and device for public security case and Confession text, the method includes obtaining the data information of public security case text and confession, integrating the case text and confession correspondence to form a text data, and storing it in a data table for annotation; and storing the case text and Confession text According to the integrated text data of the confession, the entity words are marked; the part of speech is marked, and the basic feature template is built according to the features extracted; the basic feature template, the public security case text and the case confession corpus are input into the CRF algorithm model for training, and the naming extraction model is obtained; the information data table of the urban streets within the scope of public security monitoring is established; the naming is adopted The extraction model identifies the text and confession information of new cases, and extracts the information corresponding to the information data table mapped to the urban street situation, so as to improve the office efficiency.

【技术实现步骤摘要】
一种基于CRF算法的公安案件及口供文本的命名提取方法及其装置
本专利技术涉及自然语言处理
,具体公开了一种基于CRF算法的公安案件及口供文本的命名提取方法及其装置。
技术介绍
随着自然语言处理技术的快速发展,该技术已经广泛应用于搜索引擎等相关行业中,而公安机构在长期信息化进程中积累了大量的案件文本数据信息,公安部门需要投入越来越多的人力去对案件文本和口供文本的分析和分类。目前,由于众多案件和口供经由不同的警务人员描述和记录,用语上存在主观上的差异,而且没有规范描述用语,为了能准确地查阅到相关的信息,需要公安人员花费更多的时间和精力,在查阅过程中大大加重了公安人员的工作压力和用人成本,办公效率大大降低;而且当公安人员需要提取一些案件信息时,需通过查阅案件并浏览案件全文内容后获取,并不能直观地了解案件的重要信息,从而造成公安人员分析案件的效率低下。因此,行业内需要一种能解决上述问题的方法和装置。
技术实现思路
为了克服现有技术中存在的缺点和不足,本专利技术的目的在于提供一种基于CRF算法的公安案件及口供文本的命名提取方法及其装置,以此能使公安人员在办公过程中能快速准确地了解到案件的相关信息。为实现上述目的,本专利技术采用如下方案。一种基于CRF算法的公安案件及口供文本的命名提取方法,包括:获取公安案件文本及案件口供的数据信息,将案件文本及案件口供对应整合形成一文本数据,并存储一数据表中以进行标注;将案件文本及案件口供对应整合形成的文本数据进行实体词标注;进行词性标注,根据标注提取特征以建立基本特征模板;将基本特征模板和公安案件文本及案件口供的语料输入CRF算法模型进行训练,获得命名提取模型;建立公安监控范围内城市街道情况的信息数据表;通过命名提取模型对新增案件文本及口供信息识别,并对应映射至城市街道情况的信息数据表进行信息提取。进一步地,所述进行词性标注,根据标注提取特征以建立基本特征模板包括:采用jieba分词法对语料进行分词,采用jieba.posseg进行词性标注;根据分词及词性标注,利用BIEOS标注模型对每个分词进行标注以获取其对应的标签,其中标签中B表示词部位首部,I表示词部位内部,E表示词部位尾部,O表示无关词,S表示单体词;对语料进行特征提取以建立基本特征模板,其中特征包括词性特征、实体词特征及标签。进一步地,所述建立基本特征模板是以u-gram为基础的自定义特征模板包括:建立特征模板:U00:%x[-2,0]U01:%x[-1,0]U02:%x[0,0]U03:%x[1,0]U04:%x[2,0]U05:%x[-2,1]U06:%x[-1,1]U07:%x[0,1]U08:%x[1,1]U09:%x[2,1]U10:%x[-2,0]/%x[-1,0]/%x[0,0]U11:%x[-1,0]/%x[0,0]/%x[1,0]U12:%x[0,0]/%x[1,0]/%x[2,0]U13:%x[-2,0]/%x[-1,1]U14:%x[0,0]/%x[1,0]U15:%x[-1,0]/%x[0,0]U16:%x[1,1]/%x[2,1]U17:%x[-1,1]/%x[0,1]U18:%x[0,1]/%x[1,1]其中,U00至U09分别表示各自位置的特征分词;U10至U18则表示由特征分词组成的语料;将词性特征、实体词特征及标签代入自定义特征模板分配特征分词的位置及语料组成。进一步地,所述实体词包括案发场所地点、损失物品、涉案工具、涉案手段;所述词性包括名词、动词、形容词、代词、介词。进一步地,还包括在输入CRF算法模型进行训练进行预处理,具体为:利用公安系统数据,分别构建案发场所地点数据表、损失物品种类数据表及涉案工具数据表;将公安案件文本及案件口供的语料转化成CRF算法模型的输入格式,其中每一条语料格式表示为<词,词性特征,损失物品特征,涉案工具特征,地点特征,标签>;遍历语料中的每一个词,若损失物品特征、涉案工具特征、地点特征出现在其对应的数据表中则标记为1,若未出现则标记为0。进一步地,所述城市街道情况的信息包括城市街道地址信息及其对应的房屋、单位、场所、人员信息。一种移动装置,包括:整合案件文本和口供文本数据模块,用于获取公安案件文本及案件口供的数据信息,将案件文本及案件口供对应整合形成一文本数据;数据库模块,用于记录城市街道情况的信息;处理器,适于执行程序指令;存储装置,适于存储程序指令,所述程序指令适于有处理器加载并执行以实现上述的基于CRF算法的公安案件及口供文本的命名提取方法。一种计算机可读存储设备,存储有计算机程序,所述计算机程序被处理器执行以实现上述的基于CRF算法的公安案件及口供文本的命名提取方法。一种基于CRF算法的公安案件及口供文本的命名提取系统,服务器;服务器包括处理器和存储设备;处理器,适于执行程序指令;存储设备,适于存储程序指令,所述程序指令适于由处理器加载并执行以实现上述的基于CRF算法的公安案件及口供文本的命名提取方法。本专利技术的有益效果:提供一种基于CRF算法的公安案件及口供文本的分类提取方法及其装置,通过获取公安案件文本及案件口供的数据信息,将案件文本及案件口供对应整合形成一文本数据,并存储一数据表中以进行实体词标注几词性标注,完成标注后可通过标注进行特征的提取建立基本特征模板,然后再将基本特征模板和公安案件文本及案件口供信息输入至CRF算法的模型训练,从而获得一个通用的命名提取模型,同时建立公安监控范围内城市街道情况的信息数据表,当有新增的公安案件文本及案件口供的数据信息时,将其通入命名提取模型中识别出新增公安案件文本及案件口供的关键信息,方便公安人员的对案件信息的查询,同时映射至城市街道情况的信息数据表并反馈给公安人员,使得案件提取信息更为全面准确。而且本方案通过样本训练建立一个通用的命名提取模型,可以适应不同的警务人员描述和记录用语上的差异,能准确地查阅到相关的信息,大大提高办案效率。附图说明图1为本专利技术实施例的流程示意图。图2为本专利技术实施例的装置示意图。图3为本专利技术实施例的语料训练格式的示意图。图4为本专利技术实施例BIEOS模型标注的示意图。图5为本专利技术实施例提取地址信息的示意图。具体实施方式为了便于本领域技术人员的理解,下面结合实施例及附图对本专利技术作进一步的说明,实施方式提及的内容并非对本专利技术的限定。本专利技术提供了一种基于CRF算法的公安案件及口供文本的命名提取方法,如图1所示,为了能建立一个适用于公安案件文本及案件口供信息的通过模型,首先需要对现有公安本文档来自技高网...

【技术保护点】
1.一种基于CRF算法的公安案件及口供文本的命名提取方法,其特征在于,包括:/n获取公安案件文本及案件口供的数据信息,将案件文本及案件口供对应整合形成一文本数据,并存储一数据表中以进行标注;/n将案件文本及案件口供对应整合形成的文本数据进行实体词标注;/n进行词性标注,根据标注提取特征以建立基本特征模板;/n将基本特征模板和公安案件文本及案件口供的语料输入CRF算法模型进行训练,获得命名提取模型;/n建立公安监控范围内城市街道情况的信息数据表;/n通过命名提取模型对新增案件文本及口供信息识别,并对应映射至城市街道情况的信息数据表进行信息提取。/n

【技术特征摘要】
1.一种基于CRF算法的公安案件及口供文本的命名提取方法,其特征在于,包括:
获取公安案件文本及案件口供的数据信息,将案件文本及案件口供对应整合形成一文本数据,并存储一数据表中以进行标注;
将案件文本及案件口供对应整合形成的文本数据进行实体词标注;
进行词性标注,根据标注提取特征以建立基本特征模板;
将基本特征模板和公安案件文本及案件口供的语料输入CRF算法模型进行训练,获得命名提取模型;
建立公安监控范围内城市街道情况的信息数据表;
通过命名提取模型对新增案件文本及口供信息识别,并对应映射至城市街道情况的信息数据表进行信息提取。


2.根据权利要求1所述的一种基于CRF算法的公安案件及口供文本的命名提取方法,其特征在于,所述进行词性标注,根据标注提取特征以建立基本特征模板包括:
采用jieba分词法对语料进行分词,采用jieba.posseg进行词性标注;
根据分词及词性标注,利用BIEOS标注模型对每个分词进行标注以获取其对应的标签,其中标签中B表示词部位首部,I表示词部位内部,E表示词部位尾部,O表示无关词,S表示单体词;
对语料进行特征提取以建立基本特征模板,其中特征包括词性特征、实体词特征及标签。


3.根据权利要求2所述的一种基于CRF算法的公安案件及口供文本的命名提取方法,其特征在于,所述建立基本特征模板是以U-gram为基础的自定义特征模板包括:
建立自定义特征模板:
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-2,1]
U06:%x[-1,1]
U07:%x[0,1]
U08:%x[1,1]
U09:%x[2,1]
U10:%x[-2,0]/%x[-1,0]/%x[0,0]
U11:%x[-1,0]/%x[0,0]/%x[1,0]
U12:%x[0,0]/%x[1,0]/%x[2,0]
U13:%x[-2,0]/%x[-1,1]
U14:%x[0,0]/%x[1,0]
U15:%x[-1,0]/%x[0,0]
U16:%x[1,1]/%x[2,1]
U17:%x[-1,1]/%x[0,1]
U18:%x[0,1]/%x[1,1]

【专利技术属性】
技术研发人员:麦家健莫毅宇朱凌峰
申请(专利权)人:东莞数汇大数据有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1