The invention relates to the field of natural language processing technology, in particular to a CRF algorithm based naming extraction method and device for public security case and Confession text, the method includes obtaining the data information of public security case text and confession, integrating the case text and confession correspondence to form a text data, and storing it in a data table for annotation; and storing the case text and Confession text According to the integrated text data of the confession, the entity words are marked; the part of speech is marked, and the basic feature template is built according to the features extracted; the basic feature template, the public security case text and the case confession corpus are input into the CRF algorithm model for training, and the naming extraction model is obtained; the information data table of the urban streets within the scope of public security monitoring is established; the naming is adopted The extraction model identifies the text and confession information of new cases, and extracts the information corresponding to the information data table mapped to the urban street situation, so as to improve the office efficiency.
【技术实现步骤摘要】
一种基于CRF算法的公安案件及口供文本的命名提取方法及其装置
本专利技术涉及自然语言处理
,具体公开了一种基于CRF算法的公安案件及口供文本的命名提取方法及其装置。
技术介绍
随着自然语言处理技术的快速发展,该技术已经广泛应用于搜索引擎等相关行业中,而公安机构在长期信息化进程中积累了大量的案件文本数据信息,公安部门需要投入越来越多的人力去对案件文本和口供文本的分析和分类。目前,由于众多案件和口供经由不同的警务人员描述和记录,用语上存在主观上的差异,而且没有规范描述用语,为了能准确地查阅到相关的信息,需要公安人员花费更多的时间和精力,在查阅过程中大大加重了公安人员的工作压力和用人成本,办公效率大大降低;而且当公安人员需要提取一些案件信息时,需通过查阅案件并浏览案件全文内容后获取,并不能直观地了解案件的重要信息,从而造成公安人员分析案件的效率低下。因此,行业内需要一种能解决上述问题的方法和装置。
技术实现思路
为了克服现有技术中存在的缺点和不足,本专利技术的目的在于提供一种基于CRF算法的公安案件及口供文本的命名提取方法及其装置,以此能使公安人员在办公过程中能快速准确地了解到案件的相关信息。为实现上述目的,本专利技术采用如下方案。一种基于CRF算法的公安案件及口供文本的命名提取方法,包括:获取公安案件文本及案件口供的数据信息,将案件文本及案件口供对应整合形成一文本数据,并存储一数据表中以进行标注;将案件文本及案件口供对应整合形成的文本数据进 ...
【技术保护点】
1.一种基于CRF算法的公安案件及口供文本的命名提取方法,其特征在于,包括:/n获取公安案件文本及案件口供的数据信息,将案件文本及案件口供对应整合形成一文本数据,并存储一数据表中以进行标注;/n将案件文本及案件口供对应整合形成的文本数据进行实体词标注;/n进行词性标注,根据标注提取特征以建立基本特征模板;/n将基本特征模板和公安案件文本及案件口供的语料输入CRF算法模型进行训练,获得命名提取模型;/n建立公安监控范围内城市街道情况的信息数据表;/n通过命名提取模型对新增案件文本及口供信息识别,并对应映射至城市街道情况的信息数据表进行信息提取。/n
【技术特征摘要】 【专利技术属性】
1.一种基于CRF算法的公安案件及口供文本的命名提取方法,其特征在于,包括:
获取公安案件文本及案件口供的数据信息,将案件文本及案件口供对应整合形成一文本数据,并存储一数据表中以进行标注;
将案件文本及案件口供对应整合形成的文本数据进行实体词标注;
进行词性标注,根据标注提取特征以建立基本特征模板;
将基本特征模板和公安案件文本及案件口供的语料输入CRF算法模型进行训练,获得命名提取模型;
建立公安监控范围内城市街道情况的信息数据表;
通过命名提取模型对新增案件文本及口供信息识别,并对应映射至城市街道情况的信息数据表进行信息提取。
2.根据权利要求1所述的一种基于CRF算法的公安案件及口供文本的命名提取方法,其特征在于,所述进行词性标注,根据标注提取特征以建立基本特征模板包括:
采用jieba分词法对语料进行分词,采用jieba.posseg进行词性标注;
根据分词及词性标注,利用BIEOS标注模型对每个分词进行标注以获取其对应的标签,其中标签中B表示词部位首部,I表示词部位内部,E表示词部位尾部,O表示无关词,S表示单体词;
对语料进行特征提取以建立基本特征模板,其中特征包括词性特征、实体词特征及标签。
3.根据权利要求2所述的一种基于CRF算法的公安案件及口供文本的命名提取方法,其特征在于,所述建立基本特征模板是以U-gram为基础的自定义特征模板包括:
建立自定义特征模板:
U00:%x[-2,0]
U01:%x[-1,0]
U02:%x[0,0]
U03:%x[1,0]
U04:%x[2,0]
U05:%x[-2,1]
U06:%x[-1,1]
U07:%x[0,1]
U08:%x[1,1]
U09:%x[2,1]
U10:%x[-2,0]/%x[-1,0]/%x[0,0]
U11:%x[-1,0]/%x[0,0]/%x[1,0]
U12:%x[0,0]/%x[1,0]/%x[2,0]
U13:%x[-2,0]/%x[-1,1]
U14:%x[0,0]/%x[1,0]
U15:%x[-1,0]/%x[0,0]
U16:%x[1,1]/%x[2,1]
U17:%x[-1,1]/%x[0,1]
U18:%x[0,1]/%x[1,1]
技术研发人员:麦家健,莫毅宇,朱凌峰,
申请(专利权)人:东莞数汇大数据有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。