数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:39419315 阅读:7 留言:0更新日期:2023-11-19 16:08
本发明专利技术实施例公开了一种数据处理方法、装置、计算机设备及存储介质,其中方法包括:获取搜索行为数据及搜索文档;搜索行为数据包含搜索行为词和搜索行为词对应的类目标签,其中,采用搜索文档进行类目搜索的概率小于采用搜索行为词进行类目搜索的概率;提取搜索文档的文档主题,并基于搜索文档及相应的文档主题生成搜索参考数据;搜索文档关联的类目标签被作为文档主题的类目标签;将搜索参考数据和搜索行为数据作为样本数据,并采用样本数据对目标搜索模型进行模型训练,得到训练完成的目标搜索模型;训练完成的目标搜索模型用于预测输入搜索词与不同类目标签之间的对应概率,可提升模型训练的准确性。模型训练的准确性。模型训练的准确性。

【技术实现步骤摘要】
数据处理方法、装置、计算机设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种数据处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]随着计算机技术的不断深入发展,对于目前的模型训练中的关于类目预测的模型训练方式,一般是采用的类目映射,即构建映射关系的方式,或者采用统计分析的方式进行模型样本的构建和训练的,而经研究表明,采用当前的模型训练方式,存在预测准确度较低的问题,由此可见,如何提升在类目预测场景下的准确度,成为了当前的研究热点。

技术实现思路

[0003]本专利技术实施例提供了一种数据处理方法、装置、计算机设备及存储介质,可提升模型训练的准确性。
[0004]一方面,本专利技术实施例提供了一种数据处理方法,包括:
[0005]获取搜索行为数据及搜索文档;所述搜索行为数据包含搜索行为词和所述搜索行为词对应的类目标签,其中,采用所述搜索文档进行类目搜索的概率小于采用所述搜索行为词进行类目搜索的概率;
[0006]提取所述搜索文档的文档主题,并基于所述搜索文档及相应的文档主题生成搜索参考数据;所述搜索文档关联的类目标签被作为所述文档主题的类目标签;
[0007]将所述搜索参考数据和所述搜索行为数据作为样本数据,并采用所述样本数据对目标搜索模型进行模型训练,得到训练完成的目标搜索模型;所述训练完成的目标搜索模型用于预测输入搜索词与不同类目标签之间的对应概率。
[0008]再一方面,本专利技术实施例提供了一种数据处理装置,包括:
[0009]获取单元,用于获取搜索行为数据及搜索文档;所述搜索行为数据包含搜索行为词和所述搜索行为词对应的类目标签,其中,采用所述搜索文档进行类目搜索的概率小于采用所述搜索行为词进行类目搜索的概率;
[0010]处理单元,用于提取所述搜索文档的文档主题,并基于所述搜索文档及相应的文档主题生成搜索参考数据;所述搜索文档关联的类目标签被作为所述文档主题的类目标签;
[0011]所述处理单元,还用于将所述搜索参考数据和所述搜索行为数据作为样本数据,并采用所述样本数据对目标搜索模型进行模型训练,得到训练完成的目标搜索模型;所述训练完成的目标搜索模型用于预测输入搜索词与不同类目标签之间的对应概率。
[0012]再一方面,本专利技术实施例提供了一种计算机设备,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储支持计算机设备执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如下步骤:
[0013]获取搜索行为数据及搜索文档;所述搜索行为数据包含搜索行为词和所述搜索行为词对应的类目标签,其中,采用所述搜索文档进行类目搜索的概率小于采用所述搜索行为词进行类目搜索的概率;
[0014]提取所述搜索文档的文档主题,并基于所述搜索文档及相应的文档主题生成搜索参考数据;所述搜索文档关联的类目标签被作为所述文档主题的类目标签;
[0015]将所述搜索参考数据和所述搜索行为数据作为样本数据,并采用所述样本数据对目标搜索模型进行模型训练,得到训练完成的目标搜索模型;所述训练完成的目标搜索模型用于预测输入搜索词与不同类目标签之间的对应概率。
[0016]再一方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序指令,所述程序指令被处理器执行时,所述程序指令被处理器执行时,用于执行如第一方面所述的数据处理方法。
[0017]在本申请实施例中,计算机设备在对目标搜索模型进行训练时,如果该计算机设备无法获取到足够数量的搜索行为数据,该计算机设备则可获取该搜索行为数据和搜索文档,从而可基于对搜索文档的主题提取,构建搜索参考数据,然后则可将该搜索行为数据和搜索参考数据均作为该目标搜索模型的训练样本,从而实现对样本数据的有效扩充,以提升模型训练的准确性,从而实现了在模型训练过程中,对有用信息的有效利用,提升了进行模型样本数据扩充的灵活性和有效性。而采用搜索对象行为数据和搜索文档基于主题抽取后的文本作为文本分类模型训练数据,既在搜索频率出现较高的头部搜索词上最大化体现了搜索对象的搜索倾向,又使得对中长尾的搜索词能有效预估搜索对象的搜索类目,整体意图识别准确度大大提升,从而使得计算机设备可以更好地理解搜索对象的搜索意图,避免了通过文本匹配导致的非相关类目文档的出现,提升了搜索对象的搜索体验,从而也即是可实现对计算机设备的搜索预测能力的有效提升。
附图说明
[0018]为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本专利技术实施例提供的一种数据处理系统的示意图;
[0020]图2是本专利技术实施例提供的一种数据处理方法的示意流程图;
[0021]图3a是本专利技术实施例提供的一种目标搜索模型的训练过程示意图;
[0022]图3b是本专利技术实施例提供的一种物品属性提取的示意图;
[0023]图3c是本专利技术实施例提供的一种预测评价耗时的示意图;
[0024]图3d是本专利技术实施例提供的一种基于目标搜索模型的预测结果比对示意图;
[0025]图3e是本专利技术实施例提供的一种基于搜索输入进行反馈的示意图;
[0026]图3f是本专利技术实施例提供的一种进行搜索词扩展的示意图;
[0027]图4是本专利技术实施例提供的一种基于搜索请求进行搜索反馈的示意图;
[0028]图5是本专利技术实施例提供的一种数据处理装置的示意性框图;
[0029]图6是本专利技术实施例提供的一种计算机设备的示意性框图。
具体实施方式
[0030]本申请实施例提出了一种数据处理方法,使计算机设备在对目标搜索模型进行训练时,将不仅会基于搜索对象的搜索行为产生的搜索行为数据构建相应的样本数据,还会对在执行搜索时对应采用概率较低的搜索文档进行样本数据的构建,从而实现了在对目标搜索模型进行模型训练时样本的扩充,而由于在对模型的训练样本进行扩充时,是采用进行搜索时对应使用概率较小的搜索文档进行扩充的,而由于搜索文档中蕴含了较多的关于待反馈资源的描述信息,所以,也就可使该目标搜索模型从搜索文档中学习相应待反馈资源在搜索场景中的语义信息,而基于目标搜索模型基于对相应资源在搜索场景的语义学习,可有效提升该目标搜索模型在搜索场景下对相应待反馈资源的语义理解能力。同时,结合搜索对象的搜索行为产生的搜素行为数据对该目标搜索模型的训练,使计算机设备训练的目标搜索模型在搜索场景下,可实现对搜索对象的行为倾向的分析理解,从而也就使该目标搜索模型在进行搜索反馈时,将结合用户的搜索行为倾向和对待反馈资源的语义理解进行搜索反馈,也就可提升目标搜索模型的反馈有效性,进一步也就可提升采用目标搜索模型进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取搜索行为数据及搜索文档;所述搜索行为数据包含搜索行为词和所述搜索行为词对应的类目标签,其中,采用所述搜索文档进行类目搜索的概率小于采用所述搜索行为词进行类目搜索的概率;提取所述搜索文档的文档主题,并基于所述搜索文档及相应的文档主题生成搜索参考数据;所述搜索文档关联的类目标签被作为所述文档主题的类目标签;将所述搜索参考数据和所述搜索行为数据作为样本数据,并采用所述样本数据对目标搜索模型进行模型训练,得到训练完成的目标搜索模型;所述训练完成的目标搜索模型用于预测输入搜索词与不同类目标签之间的对应概率。2.如权利要求1所述的方法,其特征在于,所述获取搜索行为数据,包括:获取语料文本,所述语料文本包含历史搜索文本及基于所述历史搜索文本进行数据搜索的搜索结果;所述搜索结果包括基于所述历史搜索文本进行数据搜索得到的至少一个搜索反馈资源,及对相应搜索反馈资源的搜索执行情况;对所述语料文本包含的历史搜索文本进行分词处理和过滤处理,得到所述历史搜索文本对应的搜索分词,并基于所述搜索结果包括的搜索反馈资源和对应的搜索执行情况,确定所述历史搜索文本的搜索目标;将所述搜索分词作为搜索行为词,并将所述搜索目标作为与所述搜索行为词关联的类目标签;根据关联有类目标签的搜索行为词生成搜索行为数据。3.如权利要求1或2所述的方法,其特征在于,所述搜索行为数据的数量为多个,且一个搜索行为数据是由相应的一个搜索行为词和对应的类目标签关联得到的;所述方法还包括:获取全量的搜索行为词及所述全量的搜索行为词的分布情况,所述分布情况用于指示在进行资源搜索时,不同的搜索行为词被使用进行搜索的频繁程度;根据所述分布情况指示的各搜索行为词在进行资源搜索时对应的频繁程度,从所述全量的搜索行为词中选取出满足预设频繁程度的搜索行为词;将选取出的搜索行为词和关联的类目标签作为搜索行为数据。4.如权利要求1所述的方法,其特征在于,所述获取搜索文档的方式包括:获取待反馈资源的资源描述文本,并对所述资源描述文本进行数据增强处理,得到所述待反馈资源对应的增强文本,以及将得到的增强文本作为搜索文档;或者,获取待反馈资源的资源描述文本,并基于所述待反馈资源对应的资源领域,从所述资源描述文本中提取出相应资源领域的领域关键词,以及将提取出的领域关键词作为搜索文档。5.如权利要求4所述的方法,其特征在于,所述搜索文档包括从资源描述文本提取出的,在相应资源领域下的一个或多个领域关键词;所述基于所述待反馈资源对应的资源领域,从所述资源描述文本中提取出相应资源领域的领域关键词,包括:基于所述待反馈资源对应的资源领域,获取在相应资源领域下进行资源描述时需参考的一个或多个通用属性;从所述资源描述文本中提取出所述资源待反馈资源在任一通用属性下的描述文本,并
将各通用属性和相应的描述文本关联为领域关键词。6.如权利要求1所述的方法,其特征在于,所述方法还包括:获取目标对象发送的搜索请求,以及已调用所述训练完成的目标搜索模型进行搜索预测处理后生成的搜索缓存信息;其中,所述搜索请求包含目标搜索词,所述搜索缓存信息包含已调用所述训练完成的目标搜索模型进行搜索预测处理的一个或多个参考搜索词,及相应参考搜索词基于所述训练完成的目标搜索模型进行搜索预测处理得到的一个或多个预测类目...

【专利技术属性】
技术研发人员:余自强
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1