一种基于复合边界信息的序列标注方法及系统技术方案

技术编号:23787383 阅读:23 留言:0更新日期:2020-04-15 00:39
本发明专利技术公开了一种基于复合边界信息的序列标注方法及系统,该方法包括:对非结构化文本数据通过预设模型,生成复合词向量并归一化;对所述非结构化文本数据,预训练获得词边界特征向量;将所述复合词向量与所述词边界特征向量进行融合,得到复合边界特征向量;对所述非结构化文本数据进行预处理,并通过预训练以得到字特征向量;基于所述字特征向量及所述复合边界特征向量,通过联合学习,生成联合模型;通过所述联合模型,对待标注文本进行序列标注。该方法可消除因分词错误等带来的影响,提高了标注结果的准确性。

A sequence annotation method and system based on Composite Boundary Information

【技术实现步骤摘要】
一种基于复合边界信息的序列标注方法及系统
本专利技术涉及互联网
,特别涉及一种基于复合边界信息的序列标注方法及系统。
技术介绍
目前,随着文本数据量在互联网上的膨胀,越来越多的服务与应用依赖知识抽取等技术的辅助,以提供更好的服务。而在知识抽取这个具体的任务中,解析无自然分隔的文本(如中文、日文等)的技术又扮演着很重要的作用。在现有
,在处理无自然分隔的语言的文本数据时,仍然受到分词错误的影响。当前使用以字为单位的模型,可以在一定程度上避免分词错误的影响,但是同时也无法利用到词边界的信息,从而导致识别错误的不可避免。
技术实现思路
鉴于上述问题,本专利技术提出了一种基于复合边界信息的序列标注方法,可消除因分词错误等带来的影响,提高了标注结果的准确性。第一方面,本专利技术实施例提供一种基于复合边界信息的序列标注方法,包括:对非结构化文本数据通过预设模型,生成复合词向量并归一化;对所述非结构化文本数据,预训练获得词边界特征向量;将所述复合词向量与所述词边界特征向量进行融合,得到复合边界特征向量;对所述非结构化文本数据进行预处理,并通过预训练以得到字特征向量;基于所述字特征向量及所述复合边界特征向量,通过联合学习,生成联合模型;通过所述联合模型,对待标注文本进行序列标注。在一个实施例中,对非结构化文本数据通过预设模型,生成复合词向量并归一化,包括:对非结构化文本数据的当前语料,以每个句子为单位,生成全分词结果;r>归一化每个全分词后的词向量集合;将所述词向量集合,通过注意力机制转换为一个复合词向量;所述复合词向量包含全分词的边界信息。在一个实施例中,所述归一化每个全分词后的词向量集合,包括:统一每个词向量集合的大小,选择当前句中包含词数最多的集合,作为参照集合;所述参照集合包含词数的数量,作为参照值;当其他集合的词数少于所述参照值时,则进行padding操作。在一个实施例中,对所述非结构化文本数据,预训练获得词边界特征向量,包括:对所述非结构化文本数据的当前语料,以每个句子为单位,生成全分词结果;使用BMES对所述全分词结果的各个词序列进行标注,并按照每个字对应的标签种类进行合并;生成每个字的标签的向量表示,并转换为唯一编码表示;所述唯一编码表示包含词边界信息。在一个实施例中,对所述非结构化文本数据进行预处理,并通过预训练以得到字特征向量,包括:对所述非结构化文本数据进行数据清洗,生成训练数据;根据序列标注任务的需求,使用BIO对所述训练数据进行序列标注;将序列标注结果,输入字向量模型,预训练得到每个字的向量表示集合。第二方面,本专利技术还提供一种基于复合边界信息的序列标注系统,包括:归一化模块,用于对非结构化文本数据通过预设模型,生成复合词向量并归一化;预训练模块,用于对所述非结构化文本数据,预训练获得词边界特征向量;融合模块,用于将所述复合词向量与所述词边界特征向量进行融合,得到复合边界特征向量;预处理模块,用于对所述非结构化文本数据进行预处理,并通过预训练以得到字特征向量;生成模块,用于基于所述字特征向量及所述复合边界特征向量,通过联合学习,生成联合模型;标注模块,用于通过所述联合模型,对待标注文本进行序列标注。在一个实施例中,所述归一化模块,具体用于:对非结构化文本数据的当前语料,以每个句子为单位,生成全分词结果;归一化每个全分词后的词向量集合;将所述词向量集合,通过注意力机制转换为一个复合词向量;所述复合词向量包含全分词的边界信息。在一个实施例中,所述归一化每个全分词后的词向量集合,包括:统一每个词向量集合的大小,选择当前句中包含词数最多的集合,作为参照集合;所述参照集合包含词数的数量,作为参照值;当其他集合的词数少于所述参照值时,则进行padding操作。在一个实施例中,所述预训练模块,包括:生成单元,用于对所述非结构化文本数据的当前语料,以每个句子为单位,生成全分词结果;合并单元,用于使用BMES对所述全分词结果的各个词序列进行标注,并按照每个字对应的标签种类进行合并;转换单元,用于生成每个字的标签的向量表示,并转换为唯一编码表示;所述唯一编码表示包含词边界信息。在一个实施例中,所述预处理模块,具体用于:对所述非结构化文本数据进行数据清洗,生成训练数据;根据序列标注任务的需求,使用BIO对所述训练数据进行序列标注;将序列标注结果,输入字向量模型,预训练得到每个字的向量表示集合。本专利技术实施例提供的上述技术方案的有益效果至少包括:本专利技术实施例提供的一种基于复合边界信息的序列标注方法,可以用来表示和学习复合的边界特征,通过联合学习,生成的联合模型;可直接应用于分词、词性标注、信息抽取等序列标注的具体任务,并可以服务更多自然语言处理的后续任务如翻译、推荐等等。其中,需要识别的序列边界信息可根据具体的任务动态学习,该方法可消除因分词错误等带来的影响,提高了标注结果的准确性。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术实施例提供的基于复合边界信息的序列标注方法流程图;图2为本专利技术实施例提供的复合边界信息的序列标注联合模型生成步骤图;图3为本专利技术实施例提供的词向量集合转换示意图;图4为本专利技术实施例提供的BMES标注法示意图;图5为本专利技术实施例提供的字向量模型结构图;图6为本专利技术实施例提供的联合模型架构图;图7为本专利技术实施例提供的基于复合边界信息的序列标注系统的框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。参照图1所示,本专利技术实施例提供的一种基于复合边界信息的序列标注方法,包括:S1、对非结构化文本数据通过预设模型,生成复合词向量并归一化;S2、对所述非结构化文本数据,预训练获得词边界特征向量;S3、将所述复合词向量与所述词边界特征向量进行融合,得到复合边界特征向量;S4、对所述非结构化文本数据进行预处理,并通过预训练以得到字特征向量;S5、基于所述字特征向量及所述复合边界本文档来自技高网...

【技术保护点】
1.一种基于复合边界信息的序列标注方法,其特征在于,包括:/n对非结构化文本数据通过预设模型,生成复合词向量并归一化;/n对所述非结构化文本数据,预训练获得词边界特征向量;/n将所述复合词向量与所述词边界特征向量进行融合,得到复合边界特征向量;/n对所述非结构化文本数据进行预处理,并通过预训练以得到字特征向量;/n基于所述字特征向量及所述复合边界特征向量,通过联合学习,生成联合模型;/n通过所述联合模型,对待标注文本进行序列标注。/n

【技术特征摘要】
1.一种基于复合边界信息的序列标注方法,其特征在于,包括:
对非结构化文本数据通过预设模型,生成复合词向量并归一化;
对所述非结构化文本数据,预训练获得词边界特征向量;
将所述复合词向量与所述词边界特征向量进行融合,得到复合边界特征向量;
对所述非结构化文本数据进行预处理,并通过预训练以得到字特征向量;
基于所述字特征向量及所述复合边界特征向量,通过联合学习,生成联合模型;
通过所述联合模型,对待标注文本进行序列标注。


2.如权利要求1所述的一种基于复合边界信息的序列标注方法,其特征在于,对非结构化文本数据通过预设模型,生成复合词向量并归一化,包括:
对非结构化文本数据的当前语料,以每个句子为单位,生成全分词结果;
归一化每个全分词后的词向量集合;
将所述词向量集合,通过注意力机制转换为一个复合词向量;所述复合词向量包含全分词的边界信息。


3.如权利要求2所述的一种基于复合边界信息的序列标注方法,其特征在于,所述归一化每个全分词后的词向量集合,包括:
统一每个词向量集合的大小,选择当前句中包含词数最多的集合,作为参照集合;
所述参照集合包含词数的数量,作为参照值;当其他集合的词数少于所述参照值时,则进行padding操作。


4.如权利要求1所述的一种基于复合边界信息的序列标注方法,其特征在于,对所述非结构化文本数据,预训练获得词边界特征向量,包括:
对所述非结构化文本数据的当前语料,以每个句子为单位,生成全分词结果;
使用BMES对所述全分词结果的各个词序列进行标注,并按照每个字对应的标签种类进行合并;
生成每个字的标签的向量表示,并转换为唯一编码表示;所述唯一编码表示包含词边界信息。


5.如权利要求1~4任一项所述的一种基于复合边界信息的序列标注方法,其特征在于,对所述非结构化文本数据进行预处理,并通过预训练以得到字特征向量,包括:
对所述非结构化文本数据进行数据清洗,生成训练数据;
根据序列标注任务的需求,使用BIO对所述训练数据进行序列标注;
将序列标注结果,输入字向量模型,预训练得到每个字的向量表示集合...

【专利技术属性】
技术研发人员:孟茜夏天刘安庭
申请(专利权)人:中电药明数据科技成都有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1