一种基于汉字形音义多元知识的文本语义匹配方法和系统技术方案

技术编号:35033205 阅读:21 留言:0更新日期:2022-09-24 23:08
本发明专利技术公开一种基于汉字形音义多元知识的文本语义匹配方法和系统,其中,文本语义匹配方法包括:获取一对比较文本,对其中每个文本的形音义进行解析,得到每个文本的汉字信息、拼音信息和释义信息;使用上述信息对一对比较文本进行形音义多元知识的融合,得到文本的形音义联合表示;使用一对比较文本的分类标签融合形音义联合表示,得到一对比较文本的形音义

【技术实现步骤摘要】
一种基于汉字形音义多元知识的文本语义匹配方法和系统


[0001]本专利技术涉及语义识别
,尤其涉及一种基于汉字形音义多元知识的文本语义匹配方法和系统。

技术介绍

[0002]随着现代信息技术的不断发展,人们生活中各种类型的数据正不断爆炸式增长。这些数据中隐含着大量的高价值信息,如购物意向、社会关系或网络舆情等,因此如何对这些数据进行合理分析和处理以挖掘其潜在价值,对社会的发展至关重要。目前在文本数据层面,虽然基于深度神经网络的文本语义匹配模型已取得了较好的效果,但在处理真实应用场景中的问题时仍会面临泛化性与鲁棒性不足的问题。在真实应用场景下,模型难以做出正确判断,导致在影响产品体验的同时也会造成巨大的经济损失。
[0003]早期的文本语义匹配方法主要依赖于基于特征的语义匹配方法,如句法特征的提取、转换和关系抽取,然后根据抽取的关系匹配相关的语义。基于特征的方法只能在非常具体的任务上进行操作,因此该方法缺乏普适性,模型的性能受到一定的限制。与此同时,由于缺乏大规模语料的限制,基于深度学习方法的模型性能得不到显著提升。为了解决早起文本语义匹配方法的缺陷,现阶段主流的文本语义匹配方法,如基于深度学习的方法、基于预训练语言模型的方法等,均是从汉字字符的维度,采用基于句子编码的语义表示、基于跨句特征或句间注意力的联合特征表示,或基于预训练语言模型进行表示学习来提升文本语义匹配的效果。
[0004]上述文本语义匹配方法,其学习方式往往忽略了文本除汉字字符外的潜在语义信息,导致语义匹配不准确,难以得到字符表层含义之外的深层次的高价值信息。

技术实现思路

[0005]本专利技术提供一种基于汉字形音义多元知识的文本语义匹配方法和系统,旨在解决现有技术中的文本语义匹配方法,学习方式往往忽略了文本除汉字字符外的潜在语义信息,导致语义匹配不准确,难以得到字符表层含义之外的深层次的高价值信息的问题。
[0006]为实现上述目的,根据本专利技术的第一方面,本专利技术提出了一种基于汉字形音义多元知识的文本语义匹配方法,包括:
[0007]获取输入的一对比较文本,分别对一对比较文本中每个文本的形音义进行解析,得到每个文本的汉字信息、拼音信息和释义信息;
[0008]使用汉字信息、拼音信息和释义信息,对一对比较文本进行形音义多元知识的融合,得到文本的形音义联合表示;
[0009]使用一对比较文本的分类标签融合文本的形音义联合表示,得到一对比较文本的形音义

标签联合表示;
[0010]将形音义

标签联合表示输入至神经网络预测模型进行分类训练;
[0011]使用分类标签,计算得到一对比较文本的监督标签;
[0012]使用监督标签验证神经网络预测模型,直至神经网络预测模型训练成功;
[0013]使用训练成功的所述神经网络预测模型,预测得到一对比较文本的文本语义匹配关系。
[0014]优选的,上述文本语义匹配方法,在得到一对比较文本中每个文本的汉字信息、拼音信息和释义信息的步骤之后还包括:
[0015]分别使用BERT算法对汉字信息和拼音信息进行编码,得到编码后的汉字信息和拼音信息;
[0016]使用词级粒度语义差异信息捕获算法,获取一对比较文本的词级粒度的语义差异信息;
[0017]使用语义差异新获取一对比较文本的释义信息,对释义信息进行编码,得到编码后的释义信息。
[0018]优选的,上述文本语义匹配方法,在使用分类标签融合文本的形音义联合表示的步骤之前还包括:
[0019]分别获取一对比较文本中每个文本的分类标签;
[0020]分别对每个文本的分类标签进行编码;
[0021]使用编码后的每个文本的分类标签,得到一对比较文本的分类标签。
[0022]优选的,上述文本语义匹配方法,使用一对比较文本的分类标签融合文本的形音义联合表示,得到一对比较文本的形音义

标签联合表示的步骤包括:
[0023]对分类标签进行编码,得到分类标签对应的类别标签嵌入表示;
[0024]将类别标签嵌入表示与文本的形音义联合表示进行融合,得到一对比较文本的形音义

标签联合表示。
[0025]优选的,上述文本语义匹配方法中,将形音义

标签联合表示输入至神经网络预测模型进行分类训练的步骤包括:
[0026]将文本的形音义联合表示输入至神经网络预测模型的全连接层,得到隐藏特征之间的关联表示;
[0027]使用神经网络预测模型的线性分类器对隐藏特征之间的关联表示进行分类,得到类别匹配标签。
[0028]优选的,上述文本语义匹配方法中,根据分类标签,计算得到一对比较文本的监督标签的步骤包括:
[0029]计算形音义

标签联合表示的权重矩阵与形音义

标签联合表示的乘积;
[0030]计算乘积与偏置项的和,得到所述一对比较文本的监督标签。
[0031]优选的,上述文本语义匹配方法中,使用监督标签验证神经网络预测模型的步骤包括:
[0032]使用类别匹配标签和监督标签进行同/或运算,计算得到一对比较文本的语义一致性标签;
[0033]使用语义一致性标签验证神经网络预测模型的预测结果。
[0034]根据本专利技术的第二方面,本专利技术还提供了一种基于汉字形音义多元知识的文本语义匹配系统,包括:
[0035]形音义解析模块,用于获取输入的一对比较文本,分别对一对比较文本中每个文
本的形音义进行解析,得到每个文本的汉字信息、拼音信息和释义信息;
[0036]知识融合模块,用于使用汉字信息、拼音信息和释义信息,对一对比较文本进行形音义多元知识的融合,得到文本的形音义联合表示;
[0037]标签形音义融合模块,用于使用一对比较文本的分类标签融合文本的形音义联合表示,得到一对比较文本的形音义

标签联合表示;
[0038]分类预测模块,用于将形音义

标签联合表示输入至神经网络预测模型进行分类训练;
[0039]监督标签计算模块,用于根据分类标签,计算得到一对比较文本的监督标签;
[0040]模型验证模块,用于使用监督标签验证神经网络预测模型,直至神经网络预测模型训练成功;
[0041]语义预测模块,用于使用训练成功的神经网络预测模型,预测得到一对比较文本的语义匹配关系。
[0042]优选的,上述文本语义匹配系统中,标签形音义融合模块包括:
[0043]标签编码子模块,用于对分类标签进行编码,得到分类标签对应的类别标签嵌入表示;
[0044]标签融合子模块,用于将类别标签嵌入表示与文本的形音义联合表示进行融合,得到一对比较文本的形音义

标签联合表示。
[0045]优选的,上述文本语义匹配系统中,分类预测模块包括:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于汉字形音义多元知识的文本语义匹配方法,其特征在于,包括:获取输入的一对比较文本,分别对所述一对比较文本中每个文本的形音义进行解析,得到每个文本的汉字信息、拼音信息和释义信息;使用所述汉字信息、拼音信息和释义信息,对所述一对比较文本进行形音义多元知识的融合,得到所述文本的形音义联合表示;使用所述一对比较文本的分类标签融合所述文本的形音义联合表示,得到所述一对比较文本的形音义

标签联合表示;将所述形音义

标签联合表示输入至神经网络预测模型进行分类训练;根据所述分类标签,计算得到所述一对比较文本的监督标签;使用所述监督标签验证所述神经网络预测模型;使用训练成功的所述神经网络预测模型,预测得到一对比较文本的文本语义匹配关系。2.根据权利要求1所述的文本语义匹配方法,其特征在于,在所述得到一对比较文本中每个文本的汉字信息、拼音信息和释义信息的步骤之后,所述方法还包括:分别使用BERT算法对所述汉字信息和拼音信息进行编码,得到编码后的汉字信息和拼音信息;使用词级粒度语义差异信息捕获算法,获取所述一对比较文本的词级粒度的语义差异信息;使用所述语义差异新获取所述一对比较文本的释义信息,对所述释义信息进行编码,得到编码后的释义信息。3.根据权利要求1所述的文本语义匹配方法,其特征在于,在所述使用分类标签融合所述文本的形音义联合表示的步骤之前,所述方法还包括:分别获取所述一对比较文本中每个文本的分类标签;分别对每个文本的分类标签进行编码;使用编码后的每个文本的分类标签,得到所述一对比较文本的分类标签。4.根据权利要求1所述的文本语义匹配方法,其特征在于,所述使用一对比较文本的分类标签融合所述文本的形音义联合表示,得到所述一对比较文本的形音义

标签联合表示的步骤,包括:对所述分类标签进行编码,得到所述分类标签对应的类别标签嵌入表示;将所述类别标签嵌入表示与所述文本的形音义联合表示进行融合,得到所述一对比较文本的形音义

标签联合表示。5.根据权利要求1所述的文本语义匹配方法,其特征在于,所述将形音义

标签联合表示输入至神经网络预测模型进行分类训练的步骤,包括:将所述文本的形音义联合表示输入至所述神经网络预测模型的全连接层,得到隐藏特征之间的关联表示;使用所述神经网络预测模型的线性分类器对所述隐藏特征之间的关联表示...

【专利技术属性】
技术研发人员:李欣杰宗浩施艳蕊
申请(专利权)人:中译语通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1