一种文本处理方法、装置、设备及存储介质制造方法及图纸

技术编号：33079440 阅读：9 留言：0更新日期：2022-04-15 10:28

本申请公开了一种文本处理方法、装置、设备及存储介质，方法包括：获取待预测文本的第一语义向量，待预测文本为多媒体数据的标题文本；采用优化后的层次分类模型，基于第一语义向量预测待预测文本的一级类目，得到一个或多个一级预测类目；将第一语义向量与预设词向量集中的每个二级类目的词向量进行匹配处理，以得到一个或多个第一匹配特征；采用优化后的层次分类模型，基于一个或多个第一匹配特征和一个或多个一级预测类目，从一个或多个二级类目中确定待预测文本的目标二级类目；根据预先建立的二级类目和一级类目的对应关系，获取目标二级类目对应的目标一级类目；生成待预测文本的类目信息，可提升预测到的类目信息的准确度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本处理方法、装置、设备及存储介质

[0001]本申请涉及计算机
，尤其涉及一种文本处理方法、装置、设备及存储介质。

技术介绍

[0002]文本内容的类目信息(如：一级类目信息、二级类目信息等)在信息检索领域有着至关重要的作用。对于需要提供的数据搜索业务的应用程序来说，准确地提取出与搜索文本匹配的类目信息，可以提升该应用程序输出的搜索结果的准确性，进而可以使得该应用程序的搜索效率得到提升。然而，传统的文本处理方法无法准确地确定出文本内容的类目信息，因此，如何准确地提取文本内容的类目信息成了当下的研究热点。

技术实现思路

[0003]本申请实施例提供了一种文本处理方法、装置、设备及存储介质，可以提升预测得到的类目信息的准确率。
[0004]一方面，本申请实施例提供了一种文本处理方法，包括：
[0005]获取待预测文本的第一语义向量，并采用优化后的层次分类模型，基于所述第一语义向量预测所述待预测文本的一级类目，得到一个或多个一级预测类目；
[0006]将所述第一语义向量与预设词向量集中的每个二级类目的词向量进行匹配处理，以得到一个或多个第一匹配特征，所述预设词向量集包括：一个或多个二级类目，以及所述一个或多个二级类目中每个二级类目的词向量；
[0007]采用所述优化后的层次分类模型，基于所述一个或多个第一匹配特征和所述一个或多个一级预测类目，从所述一个或多个二级类目中确定所述待预测文本的目标二级类目；
[0008]根据预先建立的二级类目和一级类目的对应关系...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，其特征在于，包括：获取待预测文本的第一语义向量，并采用优化后的层次分类模型，基于所述第一语义向量预测所述待预测文本的一级类目，得到一个或多个一级预测类目；将所述第一语义向量与预设词向量集中的每个二级类目的词向量进行匹配处理，以得到一个或多个第一匹配特征，所述预设词向量集包括：一个或多个二级类目，以及所述一个或多个二级类目中每个二级类目的词向量；采用所述优化后的层次分类模型，基于所述一个或多个第一匹配特征和所述一个或多个一级预测类目，从所述一个或多个二级类目中确定所述待预测文本的目标二级类目；根据预先建立的二级类目和一级类目的对应关系，获取所述目标二级类目对应的目标一级类目；生成所述待预测文本的类目信息，所述类目信息包含所述目标一级类目和所述目标二级类目。2.根据权利要求1所述的方法，其特征在于，所述将所述第一语义向量与所述预设词向量集中的每个二级类目的词向量进行匹配处理，以得到一个或多个第一匹配特征，包括：遍历所述预设词向量集中的一个或多个二级类目，将当前遍历的二级类目的词向量和所述第一语义向量进行向量匹配处理，得到向量相似特征，所述向量相似特征用于指示：所述待预测文本与所述当前遍历的二级类目之间的相似度；将所述当前遍历的二级类目的词向量与所述第一语义向量进行交互式匹配处理，得到交互特征，所述交互特征用于指示：所述待预测文本与所述当前遍历的二级类目之间的相关性；将所述当前遍历的二级类目的词向量与所述第一语义向量进行语义匹配处理，得到语义差异特征，所述语义差异特征用于指示：所述待预测文本的语义与所述当前遍历的二级类目的语义之间的差异度；对所述向量相似特征、所述交互特征以及所述语义差异特征进行特征融合处理，得到所述当前遍历的二级类目对应的第一匹配特征，以在遍历结束之后得到所述一个或多个第一匹配特征。3.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取训练样本，所述训练样本包括：训练文本，以及所述训练文本的标准一级类目和标准二级类目；对所述训练文本进行解码处理，得到所述训练文本的第二语义向量；采用层次分类模型，基于所述第二语义向量确定所述标准一级类目的第二预测概率，所述第二预测概率用于指示：所述层次分类模型输出所述标准一级类目的概率；将所述第二语义向量与所述一个或多个二级类目中每个二级类目的词向量进行匹配处理，以得到一个或多个第二匹配特征；采用所述层次分类模型，基于所述一个或多个第二匹配特征确定所述标准二级类目的第三预测概率，所述第三预测概率用于指示：所述层次分类模型输出所述标准二级类目的概率；基于所述第二预测概率以及所述第三预测概率，确定目标损失值，并按照减小所述目标损失值的方向，优化所述层次分类模型的模型参数，以得到所述优化后的层次分类模型。
4.根据权利要求3所述的方法，其特征在于，所述训练样本包括：N个训练文本，以及所述N个训练文本中每个训练文本的标准一级类目和标准二级类目，N为正整数，且N＞1；确定的第二预测概率包括N个第二预测概率，所述N个第二预测概率包括所述N个训练文本中，每个训练文本的标准一级类目的第二预测概率，所述每个训练文本的标准一级类目的第二预测概率是基于所述每个训练文本的第二语义向量确定的；确定的第三预测概率包括N个第三预测概率，所述N个第三预测概率包括所述N个训练文本中，每个训练文本的标准二级类目的第三预测概率，所述每个训练文本的标准二级类目的第三预测概率是基于所述每个训练文本对应的一个或多个第二匹配特征确定的；所述基于所述第二预测概率以及所述第三预测概率，确定目标损失值，包括：基于所述N个第二预测概率和N个第三预测概率，得到第一损失值；基于所述N个训练文本中任一训练文本的标准一级类...

【专利技术属性】
技术研发人员：黄剑辉，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人