基于孪生交互和微调表示的中文语义匹配方法组成比例

技术编号:35608712 阅读:13 留言:0更新日期:2022-11-16 15:31
本发明专利技术公开了一种基于孪生交互和微调表示的中文语义匹配方法,首先以RoBERTa

【技术实现步骤摘要】
基于孪生交互和微调表示的中文语义匹配方法


[0001]本专利技术涉及计算机应用领域,具体涉及一种基于孪生交互和微调表示的中文语义匹配方法。

技术介绍

[0002]中文语义匹配就是针对两个不同的句子,判断它们之间的语义匹配度。中文语义匹配任务的核心在于挖掘文本的深度语义信息,探究不同文本之间的语义关系。文本语义匹配的技术可应用于智能问答、机器翻译以及内容检索等领域,目前所公开的文本语义匹配技术还存在匹配准确率需要进一步提高的问题。

技术实现思路

[0003]本专利技术针对目前中文语义匹配技术存在的问题,提供了一种基于RoBERTa

WWE

EXT的孪生交互以及微调表示的中文语义匹配方法,以提升中文语义匹配任务的准确率。
[0004]本专利技术所提供的方法,首先以RoBERTa

WWM

EXT预训练模型完成文本的向量初始化,针对初始特征向量构造内嵌了软对齐注意力机制(SA

Attention)和BiLSTM训练层的孪生结构,用以增强句对之间的语义交互性。其次将两个待匹配文本连接起来接入RoBERTa

WWM

EXT预训练模型进行向量化,将连接的向量化结果输入LSTM

BiLSTM网络层做增强训练,用以强化句子内部的上下语义关系。然后搭建可微调RoBERTa

WWM

EXT初始向量的训练模型,用以产生经过标签监督微调的文本向量,从而进一步增强向量对文本间语义关系的表示力度,最终达到提升中文语义匹配准确率的目的。
[0005]本专利技术所提供的方法,主要包括以下内容步骤:
[0006](1)将两个待匹配的中文文本S1、S2接入RoBERTa

WWM

EXT预训练模型,完成文本S1、S2的向量初始化,提取RoBERTa

WWM

EXT预训练模型的Pooler_out层,公式描述为S1vec=[RoBERTaWE([S1])]Pooler_out
、S2vec=[RoBERTaWE([S2])]Pooler_out
,其中S1vec、S2vec分别为文本S1、S2的初步特征向量表示。
[0007](2)将向量S1vec、S2vec交叉输入内嵌了软对齐注意力机制(SA

Attention)、BiLSTM训练层的孪生结构。在软对齐注意力机制处理过程中,首先计算S1vec、S2vec的注意力打分函数,然后利用SoftMax函数计算最终的注意力分布函数P,再分别与向量S1vec、S2vec求积计算得出相应的加权分布和为了保证原始数据的完整性,避免向量的信息丢失,向量的信息丢失,向量与原始向量S1vec、S2vec相加,最终向量表示为Avec1、Avec2。为进一步增强向量各自内部信息的交互性,进一步提升特征向量对文本语义的表征能力,将输出向量Avec1、Avec2分别接入BiLSTM网络层,最终经过融合产生文本S1、S2在两个孪生子通道所分别对应的特征向量表示SiaVec1、SiaVec2,针对向量SiaVec1、SiaVec2进行对应项相减、相乘,并将结果连接,公式描述为SiaVec=[|SiaVec1

SiaVec2|,SiaVec1

SiaVec2],SiaVec即为文本S1、S2经过孪生结构产生的交互向量。
[0008](3)将文本S1、S2连接为单句文本,公式为Sen=[[CLS]S1[SEP]S2[SEP]],[CLS]为
文本的开头标识,[SEP]为两文本的间隔标识,Sen即为两文本连接的单句型文本。将Sen输入到RoBERTa

WE模型,提取模型的Pooler_out输出层向量Pvec作为Sen的向量表示。将向量Pvec接入LSTM层,得到向量Lvec,为避免丢失原始的文本信息,首先将向量Lvec与原始向量Pvec连接,然后将此连接向量接入BiLSTM层,最终得到文本S1、S2经过LSTM

BiLSTM结构产生的特征向量LBvec。
[0009](4)在RoBERTa

WWM

EXT预训练模型的基础上添加线性转换层和SoftMax激活层,搭建一个可微调文本S1、S2的初始向量的表示参数的句对预分类模型。首先提取RoBERTa

WWM

EXT的Pooler_out输出层向量Pvec,然后将Pvec接入一个线性转换层,公式为LWvec=Pvec
·
W
T
+Bias,其中W为向量Pvec进行线性转换的权重矩阵,Bias为函数的偏置,LWvec为Pvec经过线性转换后的向量表示。然后将向量LWvec经过SoftMax激活层,公式为其中P
LWvec
为最终的文本对匹配结果。将数据集接入搭建完成的句对预分类结构,训练产生句对预分类模型PTM,提取Logits输出层作为文本对的微调型的特征向量,公式为LGvec=[PTM([Sen])]Logits
。LGvec即为文本S1、S2的微调表示型特征向量。
[0010](5)在前面的步骤中,文本S1、S2经过孪生结构、LSTM

BiLSTM网络层以及微调结构,分别产生了相应的向量表示SiaVec、LBvec和LGvec。首先将向量SiaVec、LBvec连接,参与MLP的layer1、layer2前两个全连接层的训练,公式为R
L2
即为两个全连接层的输出向量。然后再将向量LGvec与R
L2
连接,接入MLP的layer3全连接层产生向量R
L3
,针对向量R
L3
使用激活函数Sigmoid,公式为R即为中文文本S1、S2的语以匹配结果。
附图说明
[0011]图1为本专利技术涉及到的算法结构图。
具体实施方式
[0012]下面对本专利技术作进一步的详细描述,用于充分理解本专利技术的技术方案。
[0013](1)本专利技术中的模型整体结构:
[0014]本专利技术中的模型整体结构如图1所示,整体划分为三个网络通道和一个MLP网络结构。NC1通道中,将两个文本独立接入RoBERTa

WE模型,得到文本的初始向量,随后搭建一个内嵌SA

Attention_BiLSTM的孪生交互结构,将两个初始向量交叉接入两个孪生子通道,融合产生孪生交互型的特征向量SiaVec。NC2通道中,将两个文本句连接为单句模式,输入RoBERTa

WE模型,以Pooler_out层的输出作为文本对的初始向量,经过LSTM

BiLSTM网络训练层,产生句对的第二种特征向本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于孪生交互和微调表示的中文语义匹配方法,其特征在于,所述方法包括以下步骤:(1)将两个待匹配的文本S1、S2接入RoBERTa

WWM

EXT预训练模型,完成文本S1、S2的向量初始化,提取RoBERTa

WWM

EXT预训练模型的Pooler_out层,公式描述为S1vec=[RoBERTaWE([S1])]
Pooler_out
、S2vec=[RoBERTaWE([S2])]
Pooler_out
,其中S1vec、S2vec分别为文本S1、S2的初步特征向量表示;(2)将向量S1vec、S2vec交叉输入内嵌了软对齐注意力机制、BiLSTM训练层的孪生结构;在软对齐注意力机制处理过程中,首先计算S1vec、S2vec的注意力打分函数,然后利用SoftMax函数计算最终的注意力分布函数P,再分别与向量S1vec、S2vec求积计算得出相应的加权分布向量和向量向量分别与原始向量S1vec、S2vec相加,最终输出向量表示为Avec1、Avec2;将输出向量Avec1、Avec2分别接入BiLSTM网络层,最终经过融合产生文本S1、S2在两个孪生子通道所分别对应的特征向量表示SiaVec1、SiaVec2;针对向量SiaVec1、SiaVec2进行对应项相减、相乘,并将结果连接,公式描述为SiaVec=[|SiaVec1

SiaVec2|,SiaVec1

SiaVec2],SiaVec为文本S1、S2经过孪生结构产生的交互向量;(3)将文本S1、S2连接为单句文本,公式为Sen=[[CLS]S1[SEP]S2[SEP]],[CLS]为文本的开头标识,[SEP]为两文本的间隔标识,Sen即为两文本连接的单句型文本;将Sen输入到RoBERTa

WE模型,提取模型的Pooler_out输出层向量Pvec作为Sen的向量表示;将向量P...

【专利技术属性】
技术研发人员:强保华席广勇王玉峰李宝莲陈金勇
申请(专利权)人:中国电子科技集团公司第五十四研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1