基于条件随机场的序列标注方法、装置、设备及介质制造方法及图纸

技术编号:28839268 阅读:13 留言:0更新日期:2021-06-11 23:37
本申请涉及自然语言处理技术领域,揭露一种基于条件随机场的序列标注方法、装置、设备及介质,其中方法包括通过获取目标文本序列和标准样本序列,并将目标文本序列转换为初始向量序列,并将其输入序列标注模型中进行语义提取,得到特征序列,将特征序列与标准样本序列进行语义标注处理,计算转移概率,得到第一标注序列和元素的标签和转移概率得分,再计算每个元素的标签概率分布和将标签进行分离,得到第二标注序列,通过求解第二标注序列中的最优求解路径,从而生成目标标注序列。本申请还涉及区块链技术,目标文本序列存储于区块链中。本申请通过利用元素的语义信息与标签的语义信息进行序列标注,有利于提高少量样本序列标注的准确性。

【技术实现步骤摘要】
基于条件随机场的序列标注方法、装置、设备及介质
本申请涉及自然语言处理领域,尤其涉及一种基于条件随机场的序列标注方法、装置、设备及介质。
技术介绍
条件随机场(ConditionalRandomFields,CRF),是一种判别式概率模型,是一种机器学习模型,常用于文本词性标注,分词,以及命名实体识别,如自然语言文字。目前,条件随机场在人工智能的自然语言处理(NaturalLanguageProcessing,NLP)领域中,将训练语料序列进行序列标注时,往往是通过训练语料序列的元素本身的语义结合上下文信息进行标注。然后,在少量样本信息中,例如客服对话等,其缺乏上下文的信息,无法准确的将上下文信息与序列语料序列本身语义进行结合,从而导致序列标注的准确性降低。现亟需一种能够提高少量样本序列标注的准确性的方法。
技术实现思路
本申请实施例的目的在于提出一种基于条件随机场的序列标注方法、装置、设备及介质,以提高少量样本序列标注的准确性。为了解决上述技术问题,本申请实施例提供一种基于条件随机场的序列标注方法,包括:获取目标文本序列和标准样本序列,并将所述目标文本序列转换为对应的初始向量序列,其中,所述初始向量序列包括句子向量、各个字的字向量和各个字的位置向量;将所述初始向量序列输入预设的序列标注模型中进行语义提取,得到特征序列,其中,所述特征序列包括每个元素的语义信息,所述元素包括所述目标文本序列中的每个字或句子;将所述特征序列与所述标准样本序列进行语义标注处理,并通过条件随机场引入概率转移矩阵,计算所述特征序列每个元素的转移概率,得到第一标注序列和每个元素对应的标签和转移概率得分;基于所述第一标注序列的每个所述元素的语义信息与标签的语义信息,以获取所述每个元素的标签概率分布,并构建映射空间将所述标签进行分离,得到第二标注序列,其中,所述第二标注序列包括每个所述元素的标签概率得分和转移概率得分;通过维特比算法对所述第二标注序列进行维特比求解,以得到所述第二标注序列中的最优求解路径,并根据所述最优求解路径生成目标标注序列。为了解决上述技术问题,本申请实施例提供一种基于条件随机场的序列标注装置,包括:初始向量序列转换模块,用于获取目标文本序列和标准样本序列,并将所述目标文本序列转换为对应的初始向量序列,其中,所述初始向量序列包括句子向量、各个字的字向量和各个字的位置向量;语义信息提取模块,用于将所述初始向量序列输入预设的序列标注模型中进行语义提取,得到特征序列,其中,所述特征序列包括每个元素的语义信息,所述元素包括所述目标文本序列中的每个字或句子;第一标注序列生成模块,用于将所述特征序列与所述标准样本序列进行语义标注处理,并通过条件随机场引入概率转移矩阵,计算所述特征序列每个元素的转移概率,得到第一标注序列和每个元素对应的标签和转移概率得分;第二标注序列生成模块,用于基于所述第一标注序列的每个所述元素的语义信息与标签的语义信息,以获取所述每个元素的标签概率分布,并构建映射空间将所述标签进行分离,得到第二标注序列,其中,所述第二标注序列包括每个所述元素的标签概率得分和转移概率得分;目标标注序列确定模块,用于通过维特比算法对所述第二标注序列进行维特比求解,以得到所述第二标注序列中的最优求解路径,并根据所述最优求解路径生成目标标注序列。为解决上述技术问题,本专利技术采用的一个技术方案是:提供一种计算机设备,包括,一个或多个处理器;存储器,用于存储一个或多个程序,使得一个或多个处理器实现上述任意一项所述的基于条件随机场的序列标注方法。为解决上述技术问题,本专利技术采用的一个技术方案是:一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的基于条件随机场的序列标注方法。本专利技术实施例提供了一种基于条件随机场的序列标注方法、装置、设备及介质。其中,所述方法包括:通过获取目标文本序列和标准样本序列,并将目标文本序列转换为对应的初始向量序列,将初始向量序列输入预设的序列标注模型中进行语义提取,得到特征序列,将特征序列与标准样本序列进行语义标注处理,并通过条件随机场引入概率转移矩阵,计算特征序列每个元素的转移概率,得到第一标注序列和每个元素对应的标签和转移概率得分,基于第一标注序列的每个元素的语义信息与标签的语义信息,以获取每个元素的标签概率分布,并构建映射空间将标签进行分离,得到第二标注序列,通过维特比算法对第二标注序列进行维特比求解,以得到第二标注序列中的最优求解路径,并根据最优求解路径生成目标标注序列。本专利技术实施例通过将目标文本序列提取的语义信息与标准文本序列进行语义标注处理,以获取转移概率得分,并将每个元素的语义信息与标签对应语义信息进行处理,以获取标签概率得分,从而获取目标标注序列,实现了充分利用文本序列的每个元素的语义信息和标签的语义信息,无需考虑文本的上下文信息,有利于提高少量样本序列标注的准确性。附图说明为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的基于条件随机场的序列标注方法的应用环境示意图;图2根据本申请实施例提供的基于条件随机场的序列标注方法的一实现流程图;图3是本申请实施例提供的基于条件随机场的序列标注方法中子流程的一实现流程图;图4是本申请实施例提供的基于条件随机场的序列标注方法中子流程的又一实现流程图;图5是本申请实施例提供的基于条件随机场的序列标注方法中子流程的又一实现流程图;图6是本申请实施例提供的基于条件随机场的序列标注方法中子流程的又一实现流程图;图7是本申请实施例提供的基于条件随机场的序列标注方法中子流程的又一实现流程图;图8是本申请实施例提供的基于条件随机场的序列标注方法中子流程的又一实现流程图;图9是本申请实施例提供的基于条件随机场的序列标注装置示意图;图10是本申请实施例提供的计算机设备的示意图。具体实施方式除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的本文档来自技高网
...

【技术保护点】
1.一种基于条件随机场的序列标注方法,其特征在于,包括:/n获取目标文本序列和标准样本序列,并将所述目标文本序列转换为对应的初始向量序列,其中,所述初始向量序列包括句子向量、各个字向量集合的字向量和各个字的位置向量;/n将所述初始向量序列输入预设的序列标注模型中进行语义提取,得到特征序列,其中,所述特征序列包括每个元素的语义信息,所述元素包括所述目标文本序列中的每个字或句子;/n将所述特征序列与所述标准样本序列进行语义标注处理,并通过条件随机场引入概率转移矩阵,计算所述特征序列每个元素的转移概率,得到第一标注序列和每个元素对应的标签和转移概率得分;/n基于所述第一标注序列的每个所述元素的语义信息与标签的语义信息,获取所述每个元素的标签概率分布,并构建映射空间将所述标签进行分离,得到第二标注序列,其中,所述第二标注序列包括每个所述元素的标签概率得分和转移概率得分;/n通过维特比算法对所述第二标注序列进行维特比求解,以得到所述第二标注序列中的最优求解路径,并根据所述最优求解路径生成目标标注序列。/n

【技术特征摘要】
1.一种基于条件随机场的序列标注方法,其特征在于,包括:
获取目标文本序列和标准样本序列,并将所述目标文本序列转换为对应的初始向量序列,其中,所述初始向量序列包括句子向量、各个字向量集合的字向量和各个字的位置向量;
将所述初始向量序列输入预设的序列标注模型中进行语义提取,得到特征序列,其中,所述特征序列包括每个元素的语义信息,所述元素包括所述目标文本序列中的每个字或句子;
将所述特征序列与所述标准样本序列进行语义标注处理,并通过条件随机场引入概率转移矩阵,计算所述特征序列每个元素的转移概率,得到第一标注序列和每个元素对应的标签和转移概率得分;
基于所述第一标注序列的每个所述元素的语义信息与标签的语义信息,获取所述每个元素的标签概率分布,并构建映射空间将所述标签进行分离,得到第二标注序列,其中,所述第二标注序列包括每个所述元素的标签概率得分和转移概率得分;
通过维特比算法对所述第二标注序列进行维特比求解,以得到所述第二标注序列中的最优求解路径,并根据所述最优求解路径生成目标标注序列。


2.根据权利要求1所述的基于条件随机场的序列标注方法,其特征在于,所述获取目标文本序列,并将所述目标文本序列转换为对应的初始向量序列,其中,所述初始向量序列包括句子向量、各个字的字向量和各个字的位置向量包括:
将所述目标文本序列输入到预设神经网络的嵌入层,通过所述嵌入层输出与所述目标文本序列对应的多个字向量,多个所述字向量中包括至少一个标点向量;
将多个所述字向量输入到分割层,根据至少一个所述标点向量对多个所述字向量进行分割,得到n个字向量集合,所述n个字向量集合对应n个分割码;
通过位置编码对每个所述分割码进行编码运算,确定每个分割码的位置信息编码,以得到所述目标文本序列中每个字向量集合的位置向量;
根据所述目标文本序列中每个字的字向量以及所述每个字向量集合的位置向量,生成所述目标文本序列的句子向量。


3.根据权利要求1所述的基于条件随机场的序列标注方法,其特征在于,所述预设的序列标注模型包括第一卷积网络层、注意力层和第二卷积网络层;
所述将所述初始向量序列输入预设的序列标注模型中进行语义提取,得到特征序列包括:
通过所述第一卷积网络层对所述初始向量序列进行卷积处理,得到所述目标文本序列中每个元素的卷积特征;
将每个所述元素的卷积特征输入所述注意力层进行语义提取,得到每个所述元素的语义信息;
将每个所述元素的语义信息输入所述第二卷积网络层进行卷积处理,得到所述特征序列。


4.根据权利要求3所述的基于条件随机场的序列标注方法,其特征在于,所述将每个所述元素的卷积特征输入所述注意力层进行语义提取,得到每个所述元素的语义信息包括:
将每个所述元素的卷积特征输入所述注意力层进行注意力权重提取,得到每个所述元素的注意力权重;
根据所述元素的注意力权重对所述元素的卷积特征进行加权处理,得到所述元素的语义信息。


5.根据权利要求1所述的基于条件随机场的序列标注方法,其特征在于,所述将所述特征序列与所述标准样本序列进行语义标注处理,并通过条件随机场引入概率转移矩阵,计算所述特征序列每个元素的转移概率,得到第一标注序列和每个元素对应的标签和转移概率得分包括:
按照标签领域方式,将同一领域的标签划分为预设数量的抽象标签类别;
根据所述抽象标签类别,将所述标准样本序列中的元素进行标签分类,得到基础标签;
根据所述特征序列中每个元...

【专利技术属性】
技术研发人员:孙超王健宗于凤英程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1