一种文本处理方法、装置、设备及存储介质制造方法及图纸

技术编号:33079440 阅读:9 留言:0更新日期:2022-04-15 10:28
本申请公开了一种文本处理方法、装置、设备及存储介质,方法包括:获取待预测文本的第一语义向量,待预测文本为多媒体数据的标题文本;采用优化后的层次分类模型,基于第一语义向量预测待预测文本的一级类目,得到一个或多个一级预测类目;将第一语义向量与预设词向量集中的每个二级类目的词向量进行匹配处理,以得到一个或多个第一匹配特征;采用优化后的层次分类模型,基于一个或多个第一匹配特征和一个或多个一级预测类目,从一个或多个二级类目中确定待预测文本的目标二级类目;根据预先建立的二级类目和一级类目的对应关系,获取目标二级类目对应的目标一级类目;生成待预测文本的类目信息,可提升预测到的类目信息的准确度。度。度。

【技术实现步骤摘要】
一种文本处理方法、装置、设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种文本处理方法、装置、设备及存储介质。

技术介绍

[0002]文本内容的类目信息(如:一级类目信息、二级类目信息等)在信息检索领域有着至关重要的作用。对于需要提供的数据搜索业务的应用程序来说,准确地提取出与搜索文本匹配的类目信息,可以提升该应用程序输出的搜索结果的准确性,进而可以使得该应用程序的搜索效率得到提升。然而,传统的文本处理方法无法准确地确定出文本内容的类目信息,因此,如何准确地提取文本内容的类目信息成了当下的研究热点。

技术实现思路

[0003]本申请实施例提供了一种文本处理方法、装置、设备及存储介质,可以提升预测得到的类目信息的准确率。
[0004]一方面,本申请实施例提供了一种文本处理方法,包括:
[0005]获取待预测文本的第一语义向量,并采用优化后的层次分类模型,基于所述第一语义向量预测所述待预测文本的一级类目,得到一个或多个一级预测类目;
[0006]将所述第一语义向量与预设词向量集中的每个二级类目的词向量进行匹配处理,以得到一个或多个第一匹配特征,所述预设词向量集包括:一个或多个二级类目,以及所述一个或多个二级类目中每个二级类目的词向量;
[0007]采用所述优化后的层次分类模型,基于所述一个或多个第一匹配特征和所述一个或多个一级预测类目,从所述一个或多个二级类目中确定所述待预测文本的目标二级类目;
[0008]根据预先建立的二级类目和一级类目的对应关系,获取所述目标二级类目对应的目标一级类目;
[0009]生成所述待预测文本的类目信息,所述类目信息包含所述目标一级类目和所述目标二级类目。
[0010]一方面,本申请实施例提供了一种文本处理装置,包括:
[0011]第一预测单元,用于获取待预测文本的第一语义向量,并采用优化后的层次分类模型,基于所述第一语义向量预测所述待预测文本的一级类目,得到一个或多个一级预测类目;
[0012]匹配处理单元,用于将所述第一语义向量与预设词向量集中的每个二级类目的词向量进行匹配处理,以得到一个或多个第一匹配特征,所述预设词向量集包括:一个或多个二级类目,以及所述一个或多个二级类目中每个二级类目的词向量;
[0013]第二预测单元,用于采用所述优化后的层次分类模型,基于所述一个或多个第一匹配特征和所述一个或多个一级预测类目,从所述一个或多个二级类目中确定所述待预测
文本的目标二级类目;
[0014]处理单元,用于根据预先建立的二级类目和一级类目的对应关系,获取所述目标二级类目对应的目标一级类目;
[0015]生成单元,用于生成所述待预测文本的类目信息,所述类目信息包含所述目标一级类目和所述目标二级类目。
[0016]一方面,本申请提供了一种文本处理设备,包括:
[0017]处理器,适于实现一条或多条计算机程序;
[0018]计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由所述处理器加载并执行:
[0019]获取待预测文本的第一语义向量,并采用优化后的层次分类模型,基于所述第一语义向量预测所述待预测文本的一级类目,得到一个或多个一级预测类目;将所述第一语义向量与预设词向量集中的每个二级类目的词向量进行匹配处理,以得到一个或多个第一匹配特征,所述预设词向量集包括:一个或多个二级类目,以及所述一个或多个二级类目中每个二级类目的词向量;采用所述优化后的层次分类模型,基于所述一个或多个第一匹配特征和所述一个或多个一级预测类目,从所述一个或多个二级类目中确定所述待预测文本的目标二级类目;根据预先建立的二级类目和一级类目的对应关系,获取所述目标二级类目对应的目标一级类目;生成所述待预测文本的类目信息,所述类目信息包含所述目标一级类目和所述目标二级类目。
[0020]一方面,本申请提供了一种存储介质,该存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由处理器加载并执行:
[0021]获取待预测文本的第一语义向量,并采用优化后的层次分类模型,基于所述第一语义向量预测所述待预测文本的一级类目,得到一个或多个一级预测类目;将所述第一语义向量与预设词向量集中的每个二级类目的词向量进行匹配处理,以得到一个或多个第一匹配特征,所述预设词向量集包括:一个或多个二级类目,以及所述一个或多个二级类目中每个二级类目的词向量;采用所述优化后的层次分类模型,基于所述一个或多个第一匹配特征和所述一个或多个一级预测类目,从所述一个或多个二级类目中确定所述待预测文本的目标二级类目;根据预先建立的二级类目和一级类目的对应关系,获取所述目标二级类目对应的目标一级类目;生成所述待预测文本的类目信息,所述类目信息包含所述目标一级类目和所述目标二级类目。
[0022]一方面,本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品包括计算机程序,该计算机程序存储在计算机存储介质中;文本处理设备的处理器从计算机存储介质中读取该计算机程序,处理器执行该计算机程序,使得文本处理设备执行:
[0023]获取待预测文本的第一语义向量,并采用优化后的层次分类模型,基于所述第一语义向量预测所述待预测文本的一级类目,得到一个或多个一级预测类目;将所述第一语义向量与预设词向量集中的每个二级类目的词向量进行匹配处理,以得到一个或多个第一匹配特征,所述预设词向量集包括:一个或多个二级类目,以及所述一个或多个二级类目中每个二级类目的词向量;采用所述优化后的层次分类模型,基于所述一个或多个第一匹配特征和所述一个或多个一级预测类目,从所述一个或多个二级类目中确定所述待预测文本的目标二级类目;根据预先建立的二级类目和一级类目的对应关系,获取所述目标二级类
目对应的目标一级类目;生成所述待预测文本的类目信息,所述类目信息包含所述目标一级类目和所述目标二级类目。
[0024]在本申请实施例中,文本处理设备基于多种不同的匹配特征,构建二级类目的词向量与待预测文本的语义向量之间的第一匹配特征,使得层次分类模型预测得到的目标二级类目的准确度更高;此外,由于文本处理设备是基于各个二级类目的词向量,确定出的第一匹配特征,可以使得文本处理设备更好的利用二级类目的语义信息,从而进一步提升了类目信息的准确度。
附图说明
[0025]为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026]图1是本申请实施例提供的一种训练样本的示意图;
[0027]图2是本申请实施例提供的一种层次分类模型的优化方法示意图;
[0028]图3是本申请实施例提供的一种层次分类模型的结构示意图;
[0029]图4是本申请实施例提供的一种文本处理方法的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取待预测文本的第一语义向量,并采用优化后的层次分类模型,基于所述第一语义向量预测所述待预测文本的一级类目,得到一个或多个一级预测类目;将所述第一语义向量与预设词向量集中的每个二级类目的词向量进行匹配处理,以得到一个或多个第一匹配特征,所述预设词向量集包括:一个或多个二级类目,以及所述一个或多个二级类目中每个二级类目的词向量;采用所述优化后的层次分类模型,基于所述一个或多个第一匹配特征和所述一个或多个一级预测类目,从所述一个或多个二级类目中确定所述待预测文本的目标二级类目;根据预先建立的二级类目和一级类目的对应关系,获取所述目标二级类目对应的目标一级类目;生成所述待预测文本的类目信息,所述类目信息包含所述目标一级类目和所述目标二级类目。2.根据权利要求1所述的方法,其特征在于,所述将所述第一语义向量与所述预设词向量集中的每个二级类目的词向量进行匹配处理,以得到一个或多个第一匹配特征,包括:遍历所述预设词向量集中的一个或多个二级类目,将当前遍历的二级类目的词向量和所述第一语义向量进行向量匹配处理,得到向量相似特征,所述向量相似特征用于指示:所述待预测文本与所述当前遍历的二级类目之间的相似度;将所述当前遍历的二级类目的词向量与所述第一语义向量进行交互式匹配处理,得到交互特征,所述交互特征用于指示:所述待预测文本与所述当前遍历的二级类目之间的相关性;将所述当前遍历的二级类目的词向量与所述第一语义向量进行语义匹配处理,得到语义差异特征,所述语义差异特征用于指示:所述待预测文本的语义与所述当前遍历的二级类目的语义之间的差异度;对所述向量相似特征、所述交互特征以及所述语义差异特征进行特征融合处理,得到所述当前遍历的二级类目对应的第一匹配特征,以在遍历结束之后得到所述一个或多个第一匹配特征。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取训练样本,所述训练样本包括:训练文本,以及所述训练文本的标准一级类目和标准二级类目;对所述训练文本进行解码处理,得到所述训练文本的第二语义向量;采用层次分类模型,基于所述第二语义向量确定所述标准一级类目的第二预测概率,所述第二预测概率用于指示:所述层次分类模型输出所述标准一级类目的概率;将所述第二语义向量与所述一个或多个二级类目中每个二级类目的词向量进行匹配处理,以得到一个或多个第二匹配特征;采用所述层次分类模型,基于所述一个或多个第二匹配特征确定所述标准二级类目的第三预测概率,所述第三预测概率用于指示:所述层次分类模型输出所述标准二级类目的概率;基于所述第二预测概率以及所述第三预测概率,确定目标损失值,并按照减小所述目标损失值的方向,优化所述层次分类模型的模型参数,以得到所述优化后的层次分类模型。
4.根据权利要求3所述的方法,其特征在于,所述训练样本包括:N个训练文本,以及所述N个训练文本中每个训练文本的标准一级类目和标准二级类目,N为正整数,且N>1;确定的第二预测概率包括N个第二预测概率,所述N个第二预测概率包括所述N个训练文本中,每个训练文本的标准一级类目的第二预测概率,所述每个训练文本的标准一级类目的第二预测概率是基于所述每个训练文本的第二语义向量确定的;确定的第三预测概率包括N个第三预测概率,所述N个第三预测概率包括所述N个训练文本中,每个训练文本的标准二级类目的第三预测概率,所述每个训练文本的标准二级类目的第三预测概率是基于所述每个训练文本对应的一个或多个第二匹配特征确定的;所述基于所述第二预测概率以及所述第三预测概率,确定目标损失值,包括:基于所述N个第二预测概率和N个第三预测概率,得到第一损失值;基于所述N个训练文本中任一训练文本的标准一级类...

【专利技术属性】
技术研发人员:黄剑辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1