本发明专利技术公开了一种基于命名实体识别的案件信息提取方法,包括以下具体步骤:S1、对原始的案情文本数据进行数据预处理;S2、基于biLSTM‑CRF模型构建命名实体识别模型;S3、在步骤S1数据预处理阶段加入分词流程,将中文文本内容划分成多个语义单元,将分词信息与字序列共同作为输入数据传入命名实体识别模型;在步骤S2嵌入层的字向量序列结构的基础上加入分词信息,通过拼接字向量和分词信息,得到新的特征向量序列并传入biLSTM层进行学习训练。本发明专利技术提取每个字在当前文本中的位置信息,该部分信息扩充了原始数据的特征维度,提升模型的处理能力。同时将模型的最小语义单元从字符扩展到词语,有效地提升了模型对复杂实体的识别能力。
Case information extraction method based on Named Entity Recognition
【技术实现步骤摘要】
基于命名实体识别的案件信息提取方法
本专利技术涉及自然语言处理
,特别是一种基于命名实体识别的案件信息提取方法。
技术介绍
随着大数据技术的普及和公安信息化平台的部署,数据的管理和利用已成为当前亟需解决的问题。大量案情数据由非结构化的中文文本构成,无法直接应用到信息化系统中。当前,案情数据的结构化处理主要由信息补采民警完成。民警需要依据简要案情信息对案件进行标签化、结构化,以便在信息平台中对案件进行更深层的智能分析,从而实现案件的串并化。补采民警只能依靠人工的方式提取案件内容中的涉案人员身份信息、案发时间和地点信息,同时需对作案手段等描述性文字进行归纳。历史案件数据规模庞大,传统处理方式极大浪费了人力和时间成本。因此迫切需要一种案情数据结构化处理方法,自动提取文本中的关键信息,将案情数据标签化,让其在平台中发挥应有的价值。近几年来,基于人工智能的算法模型在视觉、语音等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展。命名实体识别作为自然语言处理的基础任务,主要应用于信息抽取、文本数据结构化。通常,我们将文本具有特定意义或者指代性强的文本内容统称为命名实体(以下简称“实体”),从非结构化文本中提取实体的过程称之为命名实体识别。当前针对命名实体识别主要包括以下四种方法:基于正则表达式的实体识别方法、基于词典的实体提取方法、基于条件随机场(CRF)的命名实体识别技术、基于biLSTM-CRF的命名实体识别技术。基于正则表达式的实体识别方法可以精确提取具有特定结构的信息,如电话、时间等信息。因该方法需要人们事先归纳各项信息的文本结构特点,所以对结构特点不明显的数据很难提取,对错别字十分敏感。基于词典的实体提取方法包含两部分:实体库和分词算法。作为关键信息判断的主要依据,实体库保存了大量已出现过的实体,实体由词或短语构成。通过分词算法对文本数据进行分词,将分词结果与实体库中内容进行匹配,符合要求的部分即为此文本数据中的实体。虽然该方法无需标注大量文本数据,但无法识别实体库中未登录的实体。基于条件随机场(CRF)的命名实体识别技术,通过统计学方法对标注的数据进行统计,将统计的结果当作机器学习模型,利用维特比算法计算出文本中的实体。该方法计算速度快,但是缺乏语义理解,对复杂实体的识别效果一般。基于biLSTM-CRF的命名实体识别技术,提取了字符之间的语义信息,并提供了长距离的依赖模型,强化了上下文之间的语义联系,在命名实体识别任务中表现较好。该方法虽具备字符级别的语义理解能力,但中文的最小语义单元是词,因此在中文文本数据中的语义理解能力有所欠缺。案情数据不同于公共语料,除时间、地标、物品等数据外,其它关键信息很少有固定结构,例如:作案手段多由一句话进行详细描述。因此,该任务对命名实体识别算法的语义理解能力有很高的要求。但是,传统的命名实体识别模型在案情数据上表现一般,某些结构复杂实体的识别准确率较低,难以替代人工。
技术实现思路
本专利技术需要解决的技术问题是提供了一种基于命名实体识别的案件信息提取方法,以解决现有的命名实体识别方法很难提取结构特点不明显的数据、缺乏语义理解、识别准确率较低、难以替代人工的问题,以提升了模型的语义理解能力,使其更契合中文文本数据,以实现对结构越复杂实体的准确识别。为解决上述技术问题,本专利技术所采取的技术方案如下。基于命名实体识别的案件信息提取方法,包括以下具体步骤:S1、对原始的案情文本数据进行数据预处理;所述数据预处理包括:数据过滤,用于对与案情内容无关的部分进行清洗或替换;新词发现,用于从大量案情数据中自动提取出专业术语,将提取出的专业术语作为新词加入分词词典;S2、基于biLSTM-CRF模型构建命名实体识别模型;所述命名实体识别模型的构建包括:数据标注,针对案情信息提取的任务需求,编写数据标注标准,组织标注人员对经步骤S1处理后的部分案情数据进行标注,人工提取对应文本中的关键信息;模型训练,经步骤S1处理后的文字序列进入模型,通过对模型输出结果的处理,提取出其中的实体;推理模块,通过模型调试,得到准确率最高的神经网络模型,以模型文件为中心搭建推理模块;S3、对步骤S2中的命名实体识别模型进行优化;对命名实体识别模型进行优化的步骤包括:在步骤S1数据预处理阶段加入分词流程,将中文文本内容划分成多个语义单元,将分词信息与字序列共同作为输入数据传入命名实体识别模型;在步骤S2嵌入层的字向量序列结构的基础上加入分词信息,通过拼接字向量和分词信息,得到新的特征向量序列并传入biLSTM层进行学习训练。进一步优化技术方案,所述步骤S1中的数据过滤是对文本数据中存在的非法字符、特殊文档结构进行统一处理。进一步优化技术方案,所述步骤S1中的新词发现是基于点互信息和左右熵模型的新词发现方法进行。进一步优化技术方案,所述步骤S2中的模型训练具体步骤为:首先,将长串文本数据分割成单个汉字或符号,字序列通过嵌入层转换成向量序列并与文字一一对应;然后,将向量序列传入神经网络层中进行学习;最后,将神经网络层的预测结果传入CRF层,利用Viterbi算法对输出结果进行校正,选择最合理的结果作为模型输出。进一步优化技术方案,所述步骤S3中,在步骤S1数据预处理阶段加入分词流程是基于公安领域的分词词典和正反向最大路径匹配算法进行。进一步优化技术方案,所述步骤S3中,在步骤S1数据预处理阶段加入分词流程中采用“B”代表词的起始位置,采用“I”代表词的中间位置,采用“E”代表词的结束位置,采用“S”代表单字。进一步优化技术方案,所述步骤S3中,分词信息主要体现文字在分词结果中的位置信息,分词信息包括三角函数、数字编码。由于采用了以上技术方案,本专利技术所取得技术进步如下。本专利技术在数据预处理阶段增加了分词流程,对文本进行语义划分,提取每个字在当前文本中的位置信息,该部分信息扩充了原始数据的特征维度,提升模型的处理能力。同时对命名实体识别模型的嵌入层做了相应的优化,将模型的最小语义单元从字符扩展到词语,有效地提升了模型对复杂实体的识别能力,在此类任务中取得了很好的效果,提升了模型的语义理解能力,更契合中文文本数据,使得本专利技术实现了对结构越复杂实体的准确识别。附图说明图1为biLSTM-CRF模型的结构示意图;图2为本专利技术的分词信息提取流程图;图3为本专利技术的特征向量结构图;图4为本专利技术对文本数据进行标注流程图。具体实施方式下面将结合附图和具体实施例对本专利技术进行进一步详细说明。一种基于命名实体识别的案件信息提取方法,结合图1至图4所示,包括以下具体步骤:S1、为了构建有效的信息提取模型,需要对原始的案情文本数据进行数据预处理,以保证数据类型和格式满足命名实体识别模型的要求。数据预处理包括:数本文档来自技高网...
【技术保护点】
1.基于命名实体识别的案件信息提取方法,其特征在于,包括以下具体步骤:/nS1、对原始的案情文本数据进行数据预处理;所述数据预处理包括:/n数据过滤,用于对与案情内容无关的部分进行清洗或替换;/n新词发现,用于从大量案情数据中自动提取出专业术语,将提取出的专业术语作为新词加入分词词典;/nS2、基于biLSTM-CRF模型构建命名实体识别模型;所述命名实体识别模型的构建包括:/n数据标注,针对案情信息提取的任务需求,编写数据标注标准,组织标注人员对经步骤S1处理后的部分案情数据进行标注,人工提取对应文本中的关键信息;/n模型训练,经步骤S1处理后的文字序列进入模型,通过对模型输出结果的处理,提取出其中的实体;/n推理模块,通过模型调试,得到准确率最高的神经网络模型,以模型文件为中心搭建推理模块;/nS3、对步骤S2中的命名实体识别模型进行优化;对命名实体识别模型进行优化的步骤包括:/n在步骤S1数据预处理阶段加入分词流程,将中文文本内容划分成多个语义单元,将分词信息与字序列共同作为输入数据传入命名实体识别模型;/n在步骤S2嵌入层的字向量序列结构的基础上加入分词信息,通过拼接字向量和分词信息,得到新的特征向量序列并传入biLSTM层进行学习训练。/n...
【技术特征摘要】
1.基于命名实体识别的案件信息提取方法,其特征在于,包括以下具体步骤:
S1、对原始的案情文本数据进行数据预处理;所述数据预处理包括:
数据过滤,用于对与案情内容无关的部分进行清洗或替换;
新词发现,用于从大量案情数据中自动提取出专业术语,将提取出的专业术语作为新词加入分词词典;
S2、基于biLSTM-CRF模型构建命名实体识别模型;所述命名实体识别模型的构建包括:
数据标注,针对案情信息提取的任务需求,编写数据标注标准,组织标注人员对经步骤S1处理后的部分案情数据进行标注,人工提取对应文本中的关键信息;
模型训练,经步骤S1处理后的文字序列进入模型,通过对模型输出结果的处理,提取出其中的实体;
推理模块,通过模型调试,得到准确率最高的神经网络模型,以模型文件为中心搭建推理模块;
S3、对步骤S2中的命名实体识别模型进行优化;对命名实体识别模型进行优化的步骤包括:
在步骤S1数据预处理阶段加入分词流程,将中文文本内容划分成多个语义单元,将分词信息与字序列共同作为输入数据传入命名实体识别模型;
在步骤S2嵌入层的字向量序列结构的基础上加入分词信息,通过拼接字向量和分词信息,得到新的特征向量序列并传入biLSTM层进行学习训练。
2.根据权利要求1所述的基于命名实体识别的案件信息提取方法,其特征在于,所述步骤S1中的数据过滤是对文本数据中存在的非...
【专利技术属性】
技术研发人员:苏学武,陈诚,水军,龚波,刘怀春,杨刚,
申请(专利权)人:珠海市新德汇信息技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。