基于多粒度融合模型的中文句子语义智能匹配方法及装置制造方法及图纸

技术编号:24576427 阅读:98 留言:0更新日期:2020-06-21 00:26
本发明专利技术公开了一种基于多粒度融合模型的中文句子语义智能匹配方法及装置,属于人工智能领域和自然语言处理领域,本发明专利技术要解决的技术问题为单粒度模型语义分析不全面和句子匹配不精确,采用的技术方案为:该方法具体如下:S1、构建文本匹配知识库;S2、构建文本匹配模型的训练数据集;S3、构建多粒度融合模型;具体如下:S301、构建字符词语映射转换表;S302、构建输入层;S303、构建多粒度嵌入层;S304、构建多粒度融合编码层;S305、构建交互匹配层;S306、构建预测层;S4、训练多粒度融合模型。该装置包括文本匹配知识库构建单元、文本匹配模型的训练数据集构建单元、多粒度融合模型构建单元和多粒度融合模型训练单元。

Chinese sentence semantic intelligent matching method and device based on multi granularity fusion model

【技术实现步骤摘要】
基于多粒度融合模型的中文句子语义智能匹配方法及装置
本专利技术涉及人工智能领域和自然语言处理领域,具体地说是一种基于多粒度融合模型的中文句子语义智能匹配方法及装置。
技术介绍
句子语义匹配在许多自然语言处理任务中扮演着关键角色,例如问答(QA)、自然语言推理(NLI)、机器翻译(MT)等。句子语义匹配的关键是计算给定句子对的语义之间的匹配程度。句子可以从不同的粒度上进行分割,例如字符、词语和短语等。当前,常用的文本分割粒度是词语,特别是在中文领域中更为普遍。目前,中文句子语义匹配模型多数是面向词语粒度的,而忽略了其它分割粒度。这些模型无法完全捕获嵌入在句子中的语义特征,有时甚至会产生噪音,这会影响句子匹配的准确性。目前,该领域的研究人员逐渐倾向于从句子的多种不同角度或粒度考虑语义匹配,比较成功的模型方法有MultiGranCNN、MV-LSTM、MPCM、BiMPM、DIIN等。尽管这些模型在一定程度上缓解了词语粒度上建模的局限性,但仍无法彻底解决句子语义的精准匹配问题,这在具有丰富语义特征的中文上表现更为突出。专利号为CN106569999A的专利文献公开了一种多粒度短文本语义相似度比较方法,其包括如下步骤:S1、对短文本进行预处理;所述预处理包括中文分词以及词性标注;S2、对经过预处理的短文本进行特征选择;S3、对经过特征选择的向量集进行距离测量以确定短文本的相似度。但是该技术方案无法彻底解决句子语义的精准匹配问题。
技术实现思路
本专利技术的技术任务是提供一种基于多粒度融合模型的中文句子语义智能匹配方法及装置,来解决单粒度模型语义分析不全面和句子匹配不精确的问题。本专利技术的技术任务是按以下方式实现的,基于多粒度融合模型的中文句子语义智能匹配方法,该方法具体如下:S1、构建文本匹配知识库;S2、构建文本匹配模型的训练数据集:对于每一个句子,在文本匹配知识库中都会有一个与之对应的标准的语义匹配的句子,此句子可与其组合用来构建训练正例;其他不匹配的句子可自由组合用来构建训练负例;用户可根据文本匹配知识库大小来设定负例的数量,从而构建训练数据集;S3、构建多粒度融合模型;具体如下:S301、构建字符词语映射转换表;S302、构建输入层;S303、构建多粒度嵌入层:对句子中的词语和字符进行向量映射,得到词语级句子向量和字符级句子向量;S304、构建多粒度融合编码层:对词语级句子向量和字符级句子向量进行编码处理,得到句子语义特征向量;S305、构建交互匹配层:对句子语义特征向量进行分层比较,得到句子对的匹配表征向量;S306、构建预测层:经预测层的Sigmoid函数处理,判断句子对的语义匹配程度;S4、训练多粒度融合模型。作为优选,所述步骤S1中构建文本匹配知识库具体如下:S101、使用爬虫获取原始数据:在互联网公共问答平台爬取问题集,得到原始相似句子知识库;或者使用网上公开的句子匹配数据集,作为原始相似句子知识库;S102、预处理原始数据:预处理原始相似句子知识库中的相似文本,对每个句子进行分词和断字处理,得到文本匹配知识库;其中,分词处理是以中文里的每个词语作为基本单位,对每条数据进行分词操作;断字处理是以中文里的每个字作为基本单位,对每条数据进行断字操作;每个汉字和词语之间用空格进行切分,并保留每条数据中包括的数字、标点以及特殊字符在内的所有内容;所述步骤S2中构建文本匹配模型的训练数据集具体如下:S201、构建训练正例:将句子与其对应的语义匹配的句子进行组合,构建训练正例,形式化为:(Q1-char,Q1-word,Q2-char,Q2-word,1);其中,Q1-char表示字符级粒度的句子1;Q1-word表示词语级粒度的句子1;Q2-char表示字符级粒度的句子2;Q2-word表示词语级粒度的句子2;1表示句子1和句子2这两个文本相匹配,是正例;S202、构建训练负例:选中一个句子Q1,再从文本匹配知识库中随机选择一个与句子Q1不匹配的句子Q2,将Q1与Q2进行组合,构建负例,形式化为:(Q1-char,Q1-word,Q2-char,Q2-word,0);其中,Q1-char表示字符级粒度的句子1;Q1-word表示词语级粒度的句子1;Q2-char表示字符级粒度的句子2;Q2-word表示词语级粒度的句子2;0表示句子Q1和句子Q2这两个文本不匹配,是负例;S203、构建训练数据集:将经过步骤S201和步骤S202操作后所获得的全部的正例样本和负例样本进行组合,并打乱其顺序,构建最终的训练数据集;其中,无论是正例数据还是负例数据均包含五个维度,即Q1-char、Q1-word、Q2-char、Q2-word、0或1。更优地,所述步骤S301中构建字符词语映射转换表具体如下:S30101、字符词语表通过预处理后得到的文本匹配知识库来构建;S30102、字符词语表构建完成后,表中每个字符和词语均被映射为唯一的数字标识,映射规则为:以数字1为起始,随后按照每个字符、词语被录入字符词语表的顺序依次递增排序,从而形成字符词语映射转换表;S30103、使用Word2Vec训练字符词语向量模型,得到字符词语向量矩阵权重embedding_matrix;所述步骤S302中构建输入层具体如下:S30201、输入层包括四个输入,对两个待匹配的句子进行预处理分别获取Q1-char、Q1-word、Q2-char、Q2-word,将其形式化为:(Q1-char,Q1-word,Q2-char,Q2-word);S30202、对于输入句子中的每个字符和词语均按照步骤S301中构建完成的字符词语映射转换表将其转化为相应的数字标识。更优地,所述步骤S303中构建多粒度嵌入层具体如下:S30301、通过加载步骤S301中训练所得的字符词语向量矩阵权重来初始化当前层的权重参数;S30302、针对输入句子Q1和Q2,经过多粒度嵌入层处理后得到其词语级句子向量和字符级句子向量Q1-wordEmd、Q1-charEmd、Q2-wordEmd、Q2-charEmd;其中,文本匹配知识库中每一个句子均能通过字符词语向量映射的方式,将文本信息转化为向量形式;所述步骤S304中构建多粒度融合编码层是将步骤S303中多粒度嵌入层输出的词语级句子向量和字符级句子向量作为输入,从两个角度获取文本语义特征,即字符级别语义特征提取和词语级别语义特征提取;再通过按位相加的形式,对两个角度的文本语义特征进行整合,得到最终的句子语义特征向量;对于句子Q1求取最终的句子语义特征向量具体如下:S30401、针对字符级别语义特征提取,具体如下:S3040101、使用LSTM进行特征提取,得到特征向量公式如下:S3040102、针对进一步采用两种不同的方法进行编码,具体如下:①、对继续使用LSTM本文档来自技高网...

【技术保护点】
1.基于多粒度融合模型的中文句子语义智能匹配方法,其特征在于,该方法具体如下:/nS1、构建文本匹配知识库;/nS2、构建文本匹配模型的训练数据集;/nS3、构建多粒度融合模型;具体如下:/nS301、构建字符词语映射转换表;/nS302、构建输入层;/nS303、构建多粒度嵌入层:对句子中的词语和字符进行向量映射,得到词语级句子向量和字符级句子向量;/nS304、构建多粒度融合编码层:对词语级句子向量和字符级句子向量进行编码处理,得到句子语义特征向量;/nS305、构建交互匹配层:对句子语义特征向量进行分层比较,得到句子对的匹配表征向量;/nS306、构建预测层:经预测层的Sigmoid函数处理,判断句子对的语义匹配程度;/nS4、训练多粒度融合模型。/n

【技术特征摘要】
1.基于多粒度融合模型的中文句子语义智能匹配方法,其特征在于,该方法具体如下:
S1、构建文本匹配知识库;
S2、构建文本匹配模型的训练数据集;
S3、构建多粒度融合模型;具体如下:
S301、构建字符词语映射转换表;
S302、构建输入层;
S303、构建多粒度嵌入层:对句子中的词语和字符进行向量映射,得到词语级句子向量和字符级句子向量;
S304、构建多粒度融合编码层:对词语级句子向量和字符级句子向量进行编码处理,得到句子语义特征向量;
S305、构建交互匹配层:对句子语义特征向量进行分层比较,得到句子对的匹配表征向量;
S306、构建预测层:经预测层的Sigmoid函数处理,判断句子对的语义匹配程度;
S4、训练多粒度融合模型。


2.根据权利要求1所述的基于多粒度融合模型的中文句子语义智能匹配方法,其特征在于,所述步骤S1中构建文本匹配知识库具体如下:
S101、使用爬虫获取原始数据:在互联网公共问答平台爬取问题集,得到原始相似句子知识库;或者使用网上公开的句子匹配数据集,作为原始相似句子知识库;
S102、预处理原始数据:预处理原始相似句子知识库中的相似文本,对每个句子进行分词和断字处理,得到文本匹配知识库;其中,分词处理是以中文里的每个词语作为基本单位,对每条数据进行分词操作;断字处理是以中文里的每个字作为基本单位,对每条数据进行断字操作;每个汉字或词语之间用空格进行切分,并保留每条数据中包括的数字、标点以及特殊字符在内的所有内容;
所述步骤S2中构建文本匹配模型的训练数据集具体如下:
S201、构建训练正例:将句子与其对应的语义匹配的句子进行组合,构建训练正例,形式化为:(Q1-char,Q1-word,Q2-char,Q2-word,1);
其中,Q1-char表示字符级粒度的句子1;Q1-word表示词语级粒度的句子1;Q2-char表示字符级粒度的句子2;Q2-word表示词语级粒度的句子2;1表示句子1和句子2这两个文本相匹配,是正例;
S202、构建训练负例:选中一个句子Q1,再从文本匹配知识库中随机选择一个与句子Q1不匹配的句子Q2,将Q1与Q2进行组合,构建负例,形式化为:(Q1-char,Q1-word,Q2-char,Q2-word,0);
其中,Q1-char表示字符级粒度的句子1;Q1-word表示词语级粒度的句子1;Q2-char表示字符级粒度的句子2;Q2-word表示词语级粒度的句子2;0表示句子Q1和句子Q2这两个文本不匹配,是负例;
S203、构建训练数据集:将经过步骤S201和步骤S202操作后所获得的全部的正例样本和负例样本进行组合,并打乱其顺序,构建最终的训练数据集;其中,无论是正例数据还是负例数据均包含五个维度,即Q1-char、Q1-word、Q2-char、Q2-word、0或1。


3.根据权利要求1或2所述的基于多粒度融合模型的中文句子语义智能匹配方法,其特征在于,所述步骤S301中构建字符词语映射转换表具体如下:
S30101、字符词语表通过预处理后得到的文本匹配知识库来构建;
S30102、字符词语表构建完成后,表中每个字符、词语均被映射为唯一的数字标识,映射规则为:以数字1为起始,随后按照每个字符、词语被录入字符词语表的顺序依次递增排序,从而形成字符词语映射转换表;
S30103、使用Word2Vec训练字符词语向量模型,得到字符词语向量矩阵权重embedding_matrix;
所述步骤S302中构建输入层具体如下:
S30201、输入层包括四个输入,对两个待匹配的句子进行预处理分别获取Q1-char、Q1-word、Q2-char、Q2-word,将其形式化为:(Q1-char,Q1-word,Q2-char,Q2-word);
S30202、对于输入句子中的每个字符和词语均按照步骤S301中构建完成的字符词语映射转换表将其转化为相应的数字标识。


4.根据权利要求3所述的基于多粒度融合模型的中文句子语义智能匹配方法,其特征在于,所述步骤S303中构建多粒度嵌入层具体如下:
S30301、通过加载步骤S301中训练所得的字符词语向量矩阵权重来初始化当前层的权重参数;
S30302、针对输入句子Q1和Q2,经过多粒度嵌入层处理后得到其词语级句子向量和字符级句子向量Q1-wordEmd、Q1-charEmd、Q2-wordEmd、Q2-charEmd;其中,文本匹配知识库中每一个句子均能通过字符词语向量映射的方式,将文本信息转化为向量形式;
所述步骤S304中构建多粒度融合编码层是将步骤S303中多粒度嵌入层输出的词语级句子向量和字符级句子向量作为输入,从两个角度获取文本语义特征,即字符级别语义特征提取和词语级别语义特征提取;再通过按位相加的形式,对两个角度的文本语义特征进行整合,得到最终的句子语义特征向量;对于句子Q1求取最终的句子语义特征向量具体如下:
S30401、针对字符级别语义特征提取,具体如下:
S3040101、使用LSTM进行特征提取,得到特征向量公式如下:



S3040102、针对进一步采用两种不同的方法进行编码,具体如下:
①、对继续使用LSTM进行二次特征提取,得到相应特征向量公式如下:



②、对使用注意力机制Attention提取特征,得到相应特征向量公式如下:



S3040103、针对使用Attention再次进行编码提取关键特征,得到特征向量公式如下:



S3040104、将与按位相加得到字符级别的语义特征公式如下:



其中,i表示相应字符向量在句子中的相对位置,Qi为句子Q1中每个字符的相应向量表示;Q′i为经过初次LSTM编码后每个字符的相应向量表示;Q″i为经过第二次LSTM编码后每个字符的相应向量表示;
S30402、针对词语级别语义特征提取,具体如下:
S3040201、使用LSTM进行特征提取,得到特征向量公式如下:



S3040202、针对进一步采用LSTM进行二次特征提取,得到相应特征向量公式如下:



S3040203、针对使用Attention再次进行编码提取关键特征,得到词语级别特征向量公式如下:



其中,i'表示相应词语向量在句子中的相对位置;Qi′为句子Q1中每个词语的相应向量表示;Q′i′为经过初次LSTM编码后每个词语的相应向量表示;Q″i′为经过第二次LSTM编码后每个词语的相应向量表示;
S30403、经过步骤S30401和步骤S30402得到相应字符级别的特征向量以及词语级别的特征向量将和按位相加,得到针对文本Q1的最终句子语义特征向量公式如下:



对于句子Q2求取最终的句子语义特征向量...

【专利技术属性】
技术研发人员:鹿文鹏王荣耀张旭贾瑞祥郭韦钰张维玉
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1