一种基于汉字形音义多元知识的文本语义匹配方法和系统技术方案

技术编号：35033205 阅读：32 留言：0更新日期：2022-09-24 23:08

本发明专利技术公开一种基于汉字形音义多元知识的文本语义匹配方法和系统，其中，文本语义匹配方法包括：获取一对比较文本，对其中每个文本的形音义进行解析，得到每个文本的汉字信息、拼音信息和释义信息；使用上述信息对一对比较文本进行形音义多元知识的融合，得到文本的形音义联合表示；使用一对比较文本的分类标签融合形音义联合表示，得到一对比较文本的形音义

全部详细技术资料下载

【技术实现步骤摘要】
一种基于汉字形音义多元知识的文本语义匹配方法和系统

[0001]本专利技术涉及语义识别
，尤其涉及一种基于汉字形音义多元知识的文本语义匹配方法和系统。

技术介绍

[0002]随着现代信息技术的不断发展，人们生活中各种类型的数据正不断爆炸式增长。这些数据中隐含着大量的高价值信息，如购物意向、社会关系或网络舆情等，因此如何对这些数据进行合理分析和处理以挖掘其潜在价值，对社会的发展至关重要。目前在文本数据层面，虽然基于深度神经网络的文本语义匹配模型已取得了较好的效果，但在处理真实应用场景中的问题时仍会面临泛化性与鲁棒性不足的问题。在真实应用场景下，模型难以做出正确判断，导致在影响产品体验的同时也会造成巨大的经济损失。
[0003]早期的文本语义匹配方法主要依赖于基于特征的语义匹配方法，如句法特征的提取、转换和关系抽取，然后根据抽取的关系匹配相关的语义。基于特征的方法只能在非常具体的任务上进行操作，因此该方法缺乏普适性，模型的性能受到一定的限制。与此同时，由于缺乏大规模语料的限制，基于深度学习方法的模型性能得不到显著提升。为了解决早起文本语义匹配方法的缺陷，现阶段主流的文本语义匹配方法，如基于深度学习的方法、基于预训练语言模型的方法等，均是从汉字字符的维度，采用基于句子编码的语义表示、基于跨句特征或句间注意力的联合特征表示，或基于预训练语言模型进行表示学习来提升文本语义匹配的效果。
[0004]上述文本语义匹配方法，其学习方式往往忽略了文本除汉字字符外的潜在语义信息，导致语义匹配不准确，难以得到字符表层...

【技术保护点】

【技术特征摘要】
1.一种基于汉字形音义多元知识的文本语义匹配方法，其特征在于，包括：获取输入的一对比较文本，分别对所述一对比较文本中每个文本的形音义进行解析，得到每个文本的汉字信息、拼音信息和释义信息；使用所述汉字信息、拼音信息和释义信息，对所述一对比较文本进行形音义多元知识的融合，得到所述文本的形音义联合表示；使用所述一对比较文本的分类标签融合所述文本的形音义联合表示，得到所述一对比较文本的形音义
‑
标签联合表示；将所述形音义
‑
标签联合表示输入至神经网络预测模型进行分类训练；根据所述分类标签，计算得到所述一对比较文本的监督标签；使用所述监督标签验证所述神经网络预测模型；使用训练成功的所述神经网络预测模型，预测得到一对比较文本的文本语义匹配关系。2.根据权利要求1所述的文本语义匹配方法，其特征在于，在所述得到一对比较文本中每个文本的汉字信息、拼音信息和释义信息的步骤之后，所述方法还包括：分别使用BERT算法对所述汉字信息和拼音信息进行编码，得到编码后的汉字信息和拼音信息；使用词级粒度语义差异信息捕获算法，获取所述一对比较文本的词级粒度的语义差异信息；使用所述语义差异新获取所述一对比较文本的释义信息，对所述释义信息进行编码，得到编码后的释义信息。3.根据权利要求1所述的文本语义匹配方法，其特征在于，在所述使用分类标签融合所述文本的形音义联合表示的步骤之前，所述方法还包括：分别获取所述一对比较文本中每个文本的分类标签；分别对每个文本的分类标签进行编码；使用编码后的每个文本的分类标签，得到所述一对比较文本的分类标签。4.根据权利要求1所述的文本语义匹配方法，其特征在于，所述使用一对比较文本的分类标签融合所述文本的形音义联合表示，得到所述一对比较文本的形音义
‑
标签联合表示的步骤，包括：对所述分类标签进行编码，得到所述分类标签对应的类别标签嵌入表示；将所述类别标签嵌入表示与所述文本的形音义联合表示进行融合，得到所述一对比较文本的形音义
‑
标签联合表示。5.根据权利要求1所述的文本语义匹配方法，其特征在于，所述将形音义
‑
标签联合表示输入至神经网络预测模型进行分类训练的步骤，包括：将所述文本的形音义联合表示输入至所述神经网络预测模型的全连接层，得到隐藏特征之间的关联表示；使用所述神经网络预测模型的线性分类器对所述隐藏特征之间的关联表示...

【专利技术属性】
技术研发人员：李欣杰，宗浩，施艳蕊，
申请(专利权)人：中译语通科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人