基于双向RNN的信息提取系统技术方案

技术编号:13774999 阅读:90 留言:0更新日期:2016-09-30 19:21
本发明专利技术涉及自然语言处理领域,特别涉及基于双向RNN的信息提取系统,包括:分词模块、词典映射表、双向RNN模块以及信息提取模块,其中所述分词模块、词典映射表、双向RNN模块以及信息提取模块依次相连;本发明专利技术系统通过双向RNN模块预测出输入的文字序列对应信息的分类序列,并通过信息提取模块将分类序列中对应的实体名称提取出来;本系统使用的双向RNN模块在预测实体名称时待处理文字序列转为的向量信息先正向再反向输入对应时刻的双向RNN模块中,在预测每个时刻分类结果时既依赖了历史信息也依赖了未来信息,使得预测的结果更加准确合理,本系统在数据处理领域,特别是实体名称提取和识别领域具有良好的应用前景。

【技术实现步骤摘要】

本专利技术自然语言处理领域,特别涉及基于双向RNN的信息提取系统
技术介绍
随着互联网的快速发展,产生了大量的、公开的网页数据,也因此催发了各种基于大数据技术的新兴产业,比如互联网医疗、互联网教育、企业或者个人征信等。这些互联网产业的兴起与繁荣离不开大量的数据信息分析;但是直接从网页上获取到数据大部分都是非结构化的,为了使用这些数据,数据清洗工作成了各大公司耗费时间精力最多的地方。而数据清洗当中特定信息提取,特别是命名实体的提取又是经常发生的事情,比如做企业征信,最常见的任务就是从大篇幅文本当中提取企业的名字。除了常见的按照“省市+关键字+行业+组织形式”的规则来命名之外,还存在大量的例外,比如公司名没有使用省市作为开头,又或者在非正式文本里公司名可能以简写、缩写的方式出现,这直接导致了使用传统的方式来进行的信息解析的召回率不高。传统的自然语言处理方法使用条件随机场(CRF)对文本进行序列建模,进而进行文本分析识别和发现公司名,使用条件随机场,首先需要根据待识别实体的特点来设计构建特征模板。特征模板包括指定窗口大小上下文的一阶词或者多阶词组,词的前缀、后缀,词性标注等状态特征;特征模板的构造非常耗时耗力,但识别结果对特征模板的依赖程度极大;而手动设置的特征模板往往仅依据部分样本的特点,通用性差;而且通常只能用到局部的上下文信息,各个特征模板的使用也是相互独立的,预测不能依赖更长的历史状态信息,也无法利用更长未来的信息反馈来纠正可能的历史错误,预测过 程复杂,预测结果难以实现全局最优。为了提升企业名提取的质量,开发一套高召回率的企业名称自动提取系统在相关数据分析中是很有价值的。
技术实现思路
本专利技术的目的在于克服现有技术中所存在的上述不足,提供基于双向RNN的信息提取系统。本系统利用双向RNN来对文本中的企业主体名称进行预测,本专利技术系统在预测企业主体名称时既依赖了前文信息又依赖了后文信息,预测的结果实现了全局优化,识别的可靠性更高;不仅如此,通过双向RNN的处理方式,无需手动设置特征模板,节省人力且通用性更好,可以在各种类型的文本中发现并提取企业名称,识别的召回率较传统基于规则的处理系统显著提高。为了实现上述专利技术目的,本专利技术提供了以下技术方案:基于双向RNN(递归神经网络)的信息提取系统,所述系统包括:分词模块、词典映射模块、双向RNN模块以及信息提取模块,其中所述分词模块与所述词典映射模块相连,所述词典映射模块与所述双向RNN模块相连;所述双向RNN模块与所述信息提取模块相连;待处理文本经过分词模块的分词处理后,形成待处理的字词序列;所述字词序列中的字或者词依次经过词典映射模块后转化成对应的向量数据序列,所述向量数据序列依次先正向和反向输入到对应时刻的双向RNN模块中,由所述双向RNN模块输出待处理的字词序列的分类序列,所述信息提取模块根据所述双向RNN输出的分类序列,提取出待处理文本中的企业实体名称。进一步的,所述分词模块为stanford-segmenter分词器。进一步的,所述词典映射模块包含词典映射表,所述词典映射表为二维矩 阵,矩阵的每一个行向量对应一个字或者词,这种字或者词与行向量的对应关系在构造所述词典映射表时设置。具体的,所述双向RNN模块中的神经网络采用如下向前算法公式: a h → t = Σ i I w i h → x i t + Σ h ′ → H w h → h ′ → b h ′ → t - 1 ]]> b h → t = θ ( a h → t ) ]]> a h ← t = Σ i I w i h ← x i t + Σ h ′ ← H w h ← h ′ ← b h ′ ← t + 1 ]]> b h ← t = θ ( a h ← t ) ]]> a 本文档来自技高网
...

【技术保护点】
基于双向RNN的信息提取系统,其特征在于,所述系统包括:分词模块、词典映射模块、双向RNN模块以及信息提取模块,其中所述分词模块与所述词典映射模块相连,所述词典映射模块与所述双向RNN模块相连,所述双向RNN模块与所述信息提取模块相连;待处理文本经过分词模块的分词处理后,形成待处理的字词序列;所述字词序列中的字或者词依次经过词典映射模块后转化成对应的向量数据序列,所述向量数据序列依次先正向和反向输入到对应时刻的双向RNN模块中,由所述双向RNN模块输出待处理的字词序列的分类序列,所述信息提取模块根据所述双向RNN输出的分类序列,提取出待处理文本中的企业实体名称。

【技术特征摘要】
1.基于双向RNN的信息提取系统,其特征在于,所述系统包括:分词模块、词典映射模块、双向RNN模块以及信息提取模块,其中所述分词模块与所述词典映射模块相连,所述词典映射模块与所述双向RNN模块相连,所述双向RNN模块与所述信息提取模块相连;待处理文本经过分词模块的分词处理后,形成待处理的字词序列;所述字词序列中的字或者词依次经过词典映射模块后转化成对应的向量数据序列,所述向量数据序列依次先正向和反向输入到对应时刻的双向RNN模块中,由所述双向RNN模块输出待处理的字词序列的分类序列,所述信息提取模块根据所述双向RNN输出的分类序列,提取出待处理文本中的企业实体名称。2.如权利要求1所述的系统,其特征在于,所述分词模块为stanford-segmenter分词器。3.如权利要求1所述的系统,其特征在于,所述词典映射模块包含词典映射表,所述词典映射表为二维矩阵,矩阵的每一个行向量对应一个字或者词,这种字或者词的对应关系在构造所述词典映射表时设置。4.如权利要求1至3之一所述的系统,其特征在于,所述双向RNN模块中的神经网络采用如下向前算法公式: a h → t = Σ i I w i h → x i t + Σ h ′ → H w h → h ′ → b h ′ → t - 1 ]]> b h → t = θ ( a h → t ) ]]> a h ← t = Σ i I w i h ← x i t + Σ h ′ ← H w h ← h ′ ← b h ′ ← t + 1 ]]> b h ← t = θ ( ...

【专利技术属性】
技术研发人员:刘世林何宏靖
申请(专利权)人:成都数联铭品科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1