System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及信息提取技术,尤其涉及融合外部词典的神经网络信息提取方法及系统。
技术介绍
1、随着电子信息化的发展,在金融、保险、银行等多个领域的业务场景中产生了海量文本数据,其中蕴含了价值丰富的业务信息,提升现有信息提取方法的效果成为一个迫切需求。
2、近年来深度神经网络及其相关技术在自然语言处理方向迅猛发展,与传统人工规则和机器学习算法相比,具有准确率高,泛化性强,不依赖特征工程等显著优点,已经被广泛应用在命名实体识别、实体关系抽取等信息提取相关任务中,取得了不俗效果,逐渐成为当前信息提取的主流算法。
3、有研究表明,在信息提取时如果结合一些外部知识,如地址提取时结合已有的地图poi信息,车机的指令识别结合已有的歌手歌曲名、通讯录等信息,可以有效提升信息提取算法的效果。但如果要求神经网络从数据中自行学习外部知识,需要海量训练数据,且学习效果有限,这限制了神经网络模型在信息提取任务中的表现。
技术实现思路
1、本专利技术实施例提供融合外部词典的神经网络信息提取方法及系统,能够解决现有技术中的问题。
2、本专利技术实施例的第一方面,
3、提供融合外部词典的神经网络信息提取方法,包括:
4、将外部实体词典加入分词词典,对原始输入文本进行中文分词得到输入文本序列,或者将原始输入文本直接作为输入文本序列;根据所述外部实体词典,从所述外部实体词典中搜索存在于所述输入文本序列中的字词,使用命名实体标注方法在所述输入文本序列中标出在所
5、初始化外部特征向量矩阵,所述外部特征向量矩阵的行数为外部知识标签数量,列数为外部知识特征维度;将所述输入文本序列向量化得到输入文本向量;使用所述外部特征向量矩阵进行外部知识特征向量化,得到外部知识特征向量;
6、将所述输入文本向量与所述外部知识特征向量相连接,得到最终输入向量;将所述最终输入向量作为神经网络的输入,输入到神经网络序列标注模型中进行训练和序列标注,得到序列标注结果;将所述序列标注结果转换为语义理解结果。
7、在一种可选的实施方式中,
8、将外部实体词典加入分词词典,对原始输入文本进行中文分词得到输入文本序列,或者将原始输入文本直接作为输入文本序列;根据所述外部实体词典,从所述外部实体词典中搜索存在于所述输入文本序列中的字词,使用命名实体标注方法在所述输入文本序列中标出在所述外部实体词典中的实体信息,作为外部知识特征包括:
9、根据所述外部实体词典结合双数组树数据结构,从所述外部实体词典中搜索存在于所述输入文本序列中的字词;
10、使用bio标注法的命名实体标注方法在所述输入文本序列中的字/词标出在所述外部实体词典中的实体信息,作为外部知识特征。
11、在一种可选的实施方式中,
12、所述方法还包括:
13、基于预先搜集好的外部实体信息,搜集含有词表内容的文本以及通用文本,训练领域用词向量;
14、基于领域用词向量,从用户输入文本中获取候选向量,并对候选向量进行合并,构建向量表示列表,经过一层线性神经网络编码获取目标候选向量。
15、在一种可选的实施方式中,
16、初始化外部特征向量矩阵,所述外部特征向量矩阵的行数为外部知识标签数量,列数为外部知识特征维度;将所述输入文本序列向量化得到输入文本向量;使用所述外部特征向量矩阵进行外部知识特征向量化,得到外部知识特征向量包括:
17、初始化外部特征向量矩阵,所述外部特征向量矩阵的行数为外部知识标签数量,列数为外部知识特征维度;
18、将所述输入文本序列进行one-hot编码向量化处理,得到输入文本向量;
19、根据输入文本序列中标注的外部实体信息,在所述外部特征向量矩阵中查找对应的外部知识标签,提取出对应行的向量作为所述外部实体的外部知识特征向量;
20、将输入文本序列中所有外部实体的外部知识特征向量进行拼接,得到完整的外部知识特征向量。
21、在一种可选的实施方式中,
22、将所述输入文本向量与所述外部知识特征向量相连接,得到最终输入向量;将所述最终输入向量作为神经网络的输入,输入到神经网络序列标注模型中进行训练和序列标注,得到序列标注结果包括:
23、按照如下公式确定序列标注结果:
24、prediction=crf(bilstm(final_input_embedding));
25、其中,prediction表示序列标注结果,crf()表示条件随机场的处理结果,bilstm()表示双向长短期记忆网络的处理结果,final_input_embedding表示最终输入向量。
26、在一种可选的实施方式中,
27、所述方法还包括对神经网络序列标注模型进行训练,训练方法如下:
28、采用crf损失函数作为训练目标,训练目标是最大化真实路径分数在所有路径中的占比:
29、
30、其中,loss表示crf损失函数的损失值,preal_path表示样本真实路径的分数,pi表示第i个路径的分数,n表示样本的所有路径数量。
31、在一种可选的实施方式中,
32、将所述最终输入向量作为神经网络的输入,输入到神经网络序列标注模型中进行训练和序列标注,得到序列标注结果包括:
33、采用维特比解码算法解码出最优序列作为序列标注结果。
34、本申请实施例的第二方面,
35、提供融合外部词典的神经网络信息提取系统,包括:
36、第一单元,用于将外部实体词典加入分词词典,对原始输入文本进行中文分词得到输入文本序列,或者将原始输入文本直接作为输入文本序列;根据所述外部实体词典,从所述外部实体词典中搜索存在于所述输入文本序列中的字词,使用命名实体标注方法在所述输入文本序列中标出在所述外部实体词典中的实体信息,作为外部知识特征;
37、第二单元,用于初始化外部特征向量矩阵,所述外部特征向量矩阵的行数为外部知识标签数量,列数为外部知识特征维度;将所述输入文本序列向量化得到输入文本向量;使用所述外部特征向量矩阵进行外部知识特征向量化,得到外部知识特征向量;
38、第三单元,用于将所述输入文本向量与所述外部知识特征向量相连接,得到最终输入向量;将所述最终输入向量作为神经网络的输入,输入到神经网络序列标注模型中进行训练和序列标注,得到序列标注结果;将所述序列标注结果转换为语义理解结果。
39、本专利技术实施例的第三方面,
40、提供一种电子设备,包括:
41、处理器;
42、用于存储处理器可执行指令的存储器;
43、其中,所述处理器被配置为调用所述存储器存储的指令,以执行前述所述的方法。
44、本专利技术实施例本文档来自技高网...
【技术保护点】
1.一种融合外部词典的神经网络信息提取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,将外部实体词典加入分词词典,对原始输入文本进行中文分词得到输入文本序列,或者将原始输入文本直接作为输入文本序列;根据所述外部实体词典,从所述外部实体词典中搜索存在于所述输入文本序列中的字词,使用命名实体标注方法在所述输入文本序列中标出在所述外部实体词典中的实体信息,作为外部知识特征包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求1所述的方法,其特征在于,初始化外部特征向量矩阵,所述外部特征向量矩阵的行数为外部知识标签数量,列数为外部知识特征维度;将所述输入文本序列向量化得到输入文本向量;使用所述外部特征向量矩阵进行外部知识特征向量化,得到外部知识特征向量包括:
5.根据权利要求1所述的方法,其特征在于,将所述输入文本向量与所述外部知识特征向量相连接,得到最终输入向量;将所述最终输入向量作为神经网络的输入,输入到神经网络序列标注模型中进行训练和序列标注,得到序列标注结果包括:
6.根
7.根据权利要求1所述的方法,其特征在于,将所述最终输入向量作为神经网络的输入,输入到神经网络序列标注模型中进行训练和序列标注,得到序列标注结果包括:
8.一种融合外部词典的神经网络信息提取系统,用于实现前述权利要求1-7中任一项所述的方法,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。
...【技术特征摘要】
1.一种融合外部词典的神经网络信息提取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,将外部实体词典加入分词词典,对原始输入文本进行中文分词得到输入文本序列,或者将原始输入文本直接作为输入文本序列;根据所述外部实体词典,从所述外部实体词典中搜索存在于所述输入文本序列中的字词,使用命名实体标注方法在所述输入文本序列中标出在所述外部实体词典中的实体信息,作为外部知识特征包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求1所述的方法,其特征在于,初始化外部特征向量矩阵,所述外部特征向量矩阵的行数为外部知识标签数量,列数为外部知识特征维度;将所述输入文本序列向量化得到输入文本向量;使用所述外部特征向量矩阵进行外部知识特征向量化,得到外部知识特征向量包括:
5.根据权利要求1所述的方法,其...
【专利技术属性】
技术研发人员:杨喆,何国涛,蒲瑶,李全忠,
申请(专利权)人:普强时代珠海横琴信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。