本发明专利技术涉及基于BERT并融合N
【技术实现步骤摘要】
基于BERT并融合N
‑
gram特征的实体抽取方法
[0001]本专利技术涉及信息抽取
,特别涉及一种基于BERT并融合N
‑
gram特征的实体抽取方法。
技术介绍
[0002]为了自动从大量的文本信息中抽取出所需要的实体信息,目前的实体抽取方法使用的基本都是BERT+CRF模型的方法,在BERT预训练模型的基础下进行微调,然后进行实体的抽取。
[0003]使用BERT+CRF模型进行实体抽取的能力主要取决于模型对文本信息特征的提取,其中BERT预训练模型的输入都是以单字为基础,经过多个Transformer encode模块,提取文本信息的高维特征,然后根据提取的文本特征对每个字进行实体类别分类。提取出的高维特征中蕴含的信息越丰富,则进行实体抽取时准确率越高。
[0004]但是中文的汉字之间都是会有一些联系的,割裂来看其中的文字是不能准确得到其中信息的。BERT预训练模型的结构中虽然有Self
‑
Attention层的存在,能够一定程度上使单个汉字与其他汉字产生联系,但是这种联系是远远不够的。这就使得最终提取出来的高维特征中蕴含的信息不够丰富,影响对最终实体抽取的准确率。
技术实现思路
[0005]本专利技术的目的在于充分发挥文本数据的上下文信息,基于BERT预训练模型与N
‑
gram特征进行融合后,能够较大程度的挖掘文本的信息,提高实体抽取的准确性,提供一种基于BERT并融合N
‑
gram特征的实体抽取方法。
[0006]为了实现上述专利技术目的,本专利技术实施例提供了以下技术方案:基于BERT并融合N
‑
gram特征的实体抽取方法,包括以下步骤:步骤S1,将语料文本输入BERT预训练模型转换为字向量;步骤S2,基于语料文本构建N
‑
gram特征向量,所述N
‑
gram特征向量的维度与字向量的维度相同;步骤S3,将字向量和N
‑
gram特征向量进行融合,得到融合后的高维向量;步骤S4,将融合得到的高维向量经过一个全连接层后输入CRF模型中进行解码,得到语料文本中每个字符是否属于某一实体的概率分布。
[0007]所述将语料文本输入BERT预训练模型转换为字向量的步骤,包括:将语料文本划分为若干条目标语句,使用BIO标注方法对每条目标语句中的实体部分和非实体部分进行标注,其中B表示实体的开始字符,I表示实体的非开始字符,O表示非实体字符;将标注后的目标语句按照BERT预训练模型的词库字典转换为序列ID,并在目标语句的开始位置插入特殊字符CLS,在目标语句的结束位置插入特殊字符SEP,以及对每条目标语句配置segment embedding,segment embedding为与目标语句维度相同的全零矩阵;
将转换为序列ID的所有目标语句和对应的segment embedding输入BERT预训练模型中,BERT预训练模型根据序列ID在embedding层中进行查表,获得字向量。
[0008]所述基于语料文本构建N
‑
gram特征向量的步骤,包括:将语料文本划分为若干条目标语句,按照字符长度为N的滑动窗口切分目标语句,使得目标语句形成多个gram频度列表;再对每个gram频度列表按照设定的阈值进行过滤,形成N
‑
gram特征向量。
[0009]所述将字向量和N
‑
gram特征向量进行融合,得到融合后的高维向量的步骤,包括:所述字向量与N
‑
gram特征向量的维度相同,将字向量与N
‑
gram特征向量相加后,计算平均,得到融合后的高维向量。
[0010]所述将融合得到的高维向量经过一个全连接层后输入CRF模型中进行解码,得到语料文本中每个字符是否属于某一实体的概率分布的步骤,包括:将融合后的高维向量输入所述BERT预训练模型的Self
‑
Attention层中,最终输出包含有特殊字符CLS和特殊字符SEP的每个字符的特征融合向量;将所有融合特征向量输入CRF模型进行解码,所述CRF模型包括状态特征函数、转移特征函数;通过状态特征函数获取当前字符的实体标签,通过转移特征函数获取当前字符与相邻字符组合后的实体标签;输出每个字符属于某一实体的概率分布。
[0011]与现有技术相比,本专利技术的有益效果:本专利技术基于BERT+CRF模型融合N
‑
gram特征向量,提取出来的高维向量能够包含更加丰富的特征,使模型拥有更加丰富的知识,相比于现有的BERT+CRF模型,本专利技术能够提取更加丰富的特征,提高实体抽取的能力。
附图说明
[0012]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0013]图1为本专利技术方法流程图;图2为本专利技术构建N
‑
gram特征向量流程图。
具体实施方式
[0014]下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0015]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0016]实施例:本专利技术通过下述技术方案实现,如图1所示,基于BERT并融合N
‑
gram特征的实体抽取方法,包括以下步骤:步骤S1,将语料文本输入BERT预训练模型转换为字向量。
[0017]本步骤的字向量是指BERT预训练模型的embedding层输出的字向量,将语料文本按句划分为若干条目标语句,对目标语句中的每个字符都转换为字向量的形式。
[0018]具体来说,对目标语句的标注格式为BIO标注,其中B表示实体的开始字符,I表示实体的非开始字符,O表示非实体字符。比如“北京欢迎您”这句话对应的BIO标注即为“B I O O O”,这句话中“北京”即为实体。
[0019]然后将标注后的目标语句按照BERT预训练模型的字典转换为序列ID,这样可以方便在BERT预训练模型的embedding层的词库字典中查找相关语义向量。每条目标语句转换为序列ID后,在每条目标语句的开始位置插入特殊字符CLS,在结束位置插入本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于BERT并融合N
‑
gram特征的实体抽取方法,其特征在于:包括以下步骤:步骤S1,将语料文本输入BERT预训练模型转换为字向量;步骤S2,基于语料文本构建N
‑
gram特征向量,所述N
‑
gram特征向量的维度与字向量的维度相同;步骤S3,将字向量和N
‑
gram特征向量进行融合,得到融合后的高维向量;步骤S4,将融合得到的高维向量经过一个全连接层后输入CRF模型中进行解码,得到语料文本中每个字符是否属于某一实体的概率分布。2.根据权利要求1所述的基于BERT并融合N
‑
gram特征的实体抽取方法,其特征在于:所述将语料文本输入BERT预训练模型转换为字向量的步骤,包括:将语料文本划分为若干条目标语句,使用BIO标注方法对每条目标语句中的实体部分和非实体部分进行标注,其中B表示实体的开始字符,I表示实体的非开始字符,O表示非实体字符;将标注后的目标语句按照BERT预训练模型的词库字典转换为序列ID,并在目标语句的开始位置插入特殊字符CLS,在目标语句的结束位置插入特殊字符SEP,以及对每条目标语句配置segment embedding,segment embedding为与目标语句维度相同的全零矩阵;将转换为序列ID的所有目标语句和对应的segment embedding输入BERT预训练模型中,BERT预训练模型根据序列ID在embedding层中进行查表,获得字向量。3.根据权利要求1所述的基于BERT并融合N
‑
【专利技术属性】
技术研发人员:石文翔,李光林,李军,
申请(专利权)人:北京道达天际科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。