数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：39419315 阅读：7 留言：0更新日期：2023-11-19 16:08

本发明专利技术实施例公开了一种数据处理方法、装置、计算机设备及存储介质，其中方法包括：获取搜索行为数据及搜索文档；搜索行为数据包含搜索行为词和搜索行为词对应的类目标签，其中，采用搜索文档进行类目搜索的概率小于采用搜索行为词进行类目搜索的概率；提取搜索文档的文档主题，并基于搜索文档及相应的文档主题生成搜索参考数据；搜索文档关联的类目标签被作为文档主题的类目标签；将搜索参考数据和搜索行为数据作为样本数据，并采用样本数据对目标搜索模型进行模型训练，得到训练完成的目标搜索模型；训练完成的目标搜索模型用于预测输入搜索词与不同类目标签之间的对应概率，可提升模型训练的准确性。模型训练的准确性。模型训练的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、计算机设备及存储介质

[0001]本申请涉及计算机
，尤其涉及一种数据处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着计算机技术的不断深入发展，对于目前的模型训练中的关于类目预测的模型训练方式，一般是采用的类目映射，即构建映射关系的方式，或者采用统计分析的方式进行模型样本的构建和训练的，而经研究表明，采用当前的模型训练方式，存在预测准确度较低的问题，由此可见，如何提升在类目预测场景下的准确度，成为了当前的研究热点。

技术实现思路

[0003]本专利技术实施例提供了一种数据处理方法、装置、计算机设备及存储介质，可提升模型训练的准确性。
[0004]一方面，本专利技术实施例提供了一种数据处理方法，包括：
[0005]获取搜索行为数据及搜索文档；所述搜索行为数据包含搜索行为词和所述搜索行为词对应的类目标签，其中，采用所述搜索文档进行类目搜索的概率小于采用所述搜索行为词进行类目搜索的概率；
[0006]提取所述搜索文档的文档主题，并基于所述搜索文档及相应的文档主题生成搜索参考数据；所述搜索文档关联的类目标签被作为所述文档主题的类目标签；
[0007]将所述搜索参考数据和所述搜索行为数据作为样本数据，并采用所述样本数据对目标搜索模型进行模型训练，得到训练完成的目标搜索模型；所述训练完成的目标搜索模型用于预测输入搜索词与不同类目标签之间的对应概率。
[0008]再一方面，本专利技术实施例提供了一种数据处理装置，包括：
[0...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：获取搜索行为数据及搜索文档；所述搜索行为数据包含搜索行为词和所述搜索行为词对应的类目标签，其中，采用所述搜索文档进行类目搜索的概率小于采用所述搜索行为词进行类目搜索的概率；提取所述搜索文档的文档主题，并基于所述搜索文档及相应的文档主题生成搜索参考数据；所述搜索文档关联的类目标签被作为所述文档主题的类目标签；将所述搜索参考数据和所述搜索行为数据作为样本数据，并采用所述样本数据对目标搜索模型进行模型训练，得到训练完成的目标搜索模型；所述训练完成的目标搜索模型用于预测输入搜索词与不同类目标签之间的对应概率。2.如权利要求1所述的方法，其特征在于，所述获取搜索行为数据，包括：获取语料文本，所述语料文本包含历史搜索文本及基于所述历史搜索文本进行数据搜索的搜索结果；所述搜索结果包括基于所述历史搜索文本进行数据搜索得到的至少一个搜索反馈资源，及对相应搜索反馈资源的搜索执行情况；对所述语料文本包含的历史搜索文本进行分词处理和过滤处理，得到所述历史搜索文本对应的搜索分词，并基于所述搜索结果包括的搜索反馈资源和对应的搜索执行情况，确定所述历史搜索文本的搜索目标；将所述搜索分词作为搜索行为词，并将所述搜索目标作为与所述搜索行为词关联的类目标签；根据关联有类目标签的搜索行为词生成搜索行为数据。3.如权利要求1或2所述的方法，其特征在于，所述搜索行为数据的数量为多个，且一个搜索行为数据是由相应的一个搜索行为词和对应的类目标签关联得到的；所述方法还包括：获取全量的搜索行为词及所述全量的搜索行为词的分布情况，所述分布情况用于指示在进行资源搜索时，不同的搜索行为词被使用进行搜索的频繁程度；根据所述分布情况指示的各搜索行为词在进行资源搜索时对应的频繁程度，从所述全量的搜索行为词中选取出满足预设频繁程度的搜索行为词；将选取出的搜索行为词和关联的类目标签作为搜索行为数据。4.如权利要求1所述的方法，其特征在于，所述获取搜索文档的方式包括：获取待反馈资源的资源描述文本，并对所述资源描述文本进行数据增强处理，得到所述待反馈资源对应的增强文本，以及将得到的增强文本作为搜索文档；或者，获取待反馈资源的资源描述文本，并基于所述待反馈资源对应的资源领域，从所述资源描述文本中提取出相应资源领域的领域关键词，以及将提取出的领域关键词作为搜索文档。5.如权利要求4所述的方法，其特征在于，所述搜索文档包括从资源描述文本提取出的，在相应资源领域下的一个或多个领域关键词；所述基于所述待反馈资源对应的资源领域，从所述资源描述文本中提取出相应资源领域的领域关键词，包括：基于所述待反馈资源对应的资源领域，获取在相应资源领域下进行资源描述时需参考的一个或多个通用属性；从所述资源描述文本中提取出所述资源待反馈资源在任一通用属性下的描述文本，并
将各通用属性和相应的描述文本关联为领域关键词。6.如权利要求1所述的方法，其特征在于，所述方法还包括：获取目标对象发送的搜索请求，以及已调用所述训练完成的目标搜索模型进行搜索预测处理后生成的搜索缓存信息；其中，所述搜索请求包含目标搜索词，所述搜索缓存信息包含已调用所述训练完成的目标搜索模型进行搜索预测处理的一个或多个参考搜索词，及相应参考搜索词基于所述训练完成的目标搜索模型进行搜索预测处理得到的一个或多个预测类目...

【专利技术属性】
技术研发人员：余自强，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人