【技术实现步骤摘要】
基于条件随机场的序列标注方法、装置、设备及介质
本申请涉及自然语言处理领域,尤其涉及一种基于条件随机场的序列标注方法、装置、设备及介质。
技术介绍
条件随机场(ConditionalRandomFields,CRF),是一种判别式概率模型,是一种机器学习模型,常用于文本词性标注,分词,以及命名实体识别,如自然语言文字。目前,条件随机场在人工智能的自然语言处理(NaturalLanguageProcessing,NLP)领域中,将训练语料序列进行序列标注时,往往是通过训练语料序列的元素本身的语义结合上下文信息进行标注。然后,在少量样本信息中,例如客服对话等,其缺乏上下文的信息,无法准确的将上下文信息与序列语料序列本身语义进行结合,从而导致序列标注的准确性降低。现亟需一种能够提高少量样本序列标注的准确性的方法。
技术实现思路
本申请实施例的目的在于提出一种基于条件随机场的序列标注方法、装置、设备及介质,以提高少量样本序列标注的准确性。为了解决上述技术问题,本申请实施例提供一种基于条件随机场的序列标注方法,包括:获取目标文本序列和标准样本序列,并将所述目标文本序列转换为对应的初始向量序列,其中,所述初始向量序列包括句子向量、各个字的字向量和各个字的位置向量;将所述初始向量序列输入预设的序列标注模型中进行语义提取,得到特征序列,其中,所述特征序列包括每个元素的语义信息,所述元素包括所述目标文本序列中的每个字或句子;将所述特征序列与所述标准样本序列进行语义标注处理,并 ...
【技术保护点】
1.一种基于条件随机场的序列标注方法,其特征在于,包括:/n获取目标文本序列和标准样本序列,并将所述目标文本序列转换为对应的初始向量序列,其中,所述初始向量序列包括句子向量、各个字向量集合的字向量和各个字的位置向量;/n将所述初始向量序列输入预设的序列标注模型中进行语义提取,得到特征序列,其中,所述特征序列包括每个元素的语义信息,所述元素包括所述目标文本序列中的每个字或句子;/n将所述特征序列与所述标准样本序列进行语义标注处理,并通过条件随机场引入概率转移矩阵,计算所述特征序列每个元素的转移概率,得到第一标注序列和每个元素对应的标签和转移概率得分;/n基于所述第一标注序列的每个所述元素的语义信息与标签的语义信息,获取所述每个元素的标签概率分布,并构建映射空间将所述标签进行分离,得到第二标注序列,其中,所述第二标注序列包括每个所述元素的标签概率得分和转移概率得分;/n通过维特比算法对所述第二标注序列进行维特比求解,以得到所述第二标注序列中的最优求解路径,并根据所述最优求解路径生成目标标注序列。/n
【技术特征摘要】
1.一种基于条件随机场的序列标注方法,其特征在于,包括:
获取目标文本序列和标准样本序列,并将所述目标文本序列转换为对应的初始向量序列,其中,所述初始向量序列包括句子向量、各个字向量集合的字向量和各个字的位置向量;
将所述初始向量序列输入预设的序列标注模型中进行语义提取,得到特征序列,其中,所述特征序列包括每个元素的语义信息,所述元素包括所述目标文本序列中的每个字或句子;
将所述特征序列与所述标准样本序列进行语义标注处理,并通过条件随机场引入概率转移矩阵,计算所述特征序列每个元素的转移概率,得到第一标注序列和每个元素对应的标签和转移概率得分;
基于所述第一标注序列的每个所述元素的语义信息与标签的语义信息,获取所述每个元素的标签概率分布,并构建映射空间将所述标签进行分离,得到第二标注序列,其中,所述第二标注序列包括每个所述元素的标签概率得分和转移概率得分;
通过维特比算法对所述第二标注序列进行维特比求解,以得到所述第二标注序列中的最优求解路径,并根据所述最优求解路径生成目标标注序列。
2.根据权利要求1所述的基于条件随机场的序列标注方法,其特征在于,所述获取目标文本序列,并将所述目标文本序列转换为对应的初始向量序列,其中,所述初始向量序列包括句子向量、各个字的字向量和各个字的位置向量包括:
将所述目标文本序列输入到预设神经网络的嵌入层,通过所述嵌入层输出与所述目标文本序列对应的多个字向量,多个所述字向量中包括至少一个标点向量;
将多个所述字向量输入到分割层,根据至少一个所述标点向量对多个所述字向量进行分割,得到n个字向量集合,所述n个字向量集合对应n个分割码;
通过位置编码对每个所述分割码进行编码运算,确定每个分割码的位置信息编码,以得到所述目标文本序列中每个字向量集合的位置向量;
根据所述目标文本序列中每个字的字向量以及所述每个字向量集合的位置向量,生成所述目标文本序列的句子向量。
3.根据权利要求1所述的基于条件随机场的序列标注方法,其特征在于,所述预设的序列标注模型包括第一卷积网络层、注意力层和第二卷积网络层;
所述将所述初始向量序列输入预设的序列标注模型中进行语义提取,得到特征序列包括:
通过所述第一卷积网络层对所述初始向量序列进行卷积处理,得到所述目标文本序列中每个元素的卷积特征;
将每个所述元素的卷积特征输入所述注意力层进行语义提取,得到每个所述元素的语义信息;
将每个所述元素的语义信息输入所述第二卷积网络层进行卷积处理,得到所述特征序列。
4.根据权利要求3所述的基于条件随机场的序列标注方法,其特征在于,所述将每个所述元素的卷积特征输入所述注意力层进行语义提取,得到每个所述元素的语义信息包括:
将每个所述元素的卷积特征输入所述注意力层进行注意力权重提取,得到每个所述元素的注意力权重;
根据所述元素的注意力权重对所述元素的卷积特征进行加权处理,得到所述元素的语义信息。
5.根据权利要求1所述的基于条件随机场的序列标注方法,其特征在于,所述将所述特征序列与所述标准样本序列进行语义标注处理,并通过条件随机场引入概率转移矩阵,计算所述特征序列每个元素的转移概率,得到第一标注序列和每个元素对应的标签和转移概率得分包括:
按照标签领域方式,将同一领域的标签划分为预设数量的抽象标签类别;
根据所述抽象标签类别,将所述标准样本序列中的元素进行标签分类,得到基础标签;
根据所述特征序列中每个元...
【专利技术属性】
技术研发人员:孙超,王健宗,于凤英,程宁,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。