System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及人工智能领域,尤其涉及一种产品类目的匹配方法及其模型生成方法、装置、电子设备。
技术介绍
1、产品类目匹配指将任意产品名称映射到统计用产品分类目录得到与该产品名称在统计用产品分类目录中所属的产品类目的一个过程。其中,统计用产品分类目录为统计局发布的统计标准数据,其中包含了97种一级类目,一级类目下包含二级到五级的子类目,共有3万多种产品类型。
2、目前产品类目的匹配方法是基于预训练的大语言模型在统计用产品分类目录中选择与目标产品名称所属的产品类目。但是预训练的大语言模型是通过大规模的通用训练样本预训练得到的。由于这些通用训练样本涵盖多种不同的领域、主题和语境等。因此,会导致预训练的大语言模型在执行产品类目匹配时会存在输出不稳定的问题,例如,预训练的大语言模型根据目标产品名称的提示文本回答的可能不是与目标产品名称匹配的产品类目,而是与目标产品名称无关的一段文字。因此,仍需构建微调样本对预训练的大语言模型进行微调。
技术实现思路
1、本公开要解决的技术问题是为了克服现有技术中预训练的大语言模型在执行产品类目匹配时会存在输出不稳定的缺陷,提供一种产品类目的匹配方法及其模型生成方法、装置、电子设备。
2、本公开是通过下述技术方案来解决上述技术问题:
3、第一方面,提供了一种产品类目匹配模型的生成方法,所述生成方法包括:
4、获取每一待匹配产品名称的候选产品类目集合、每一待匹配产品名称的若干个提示语句及若干个数据对;其中,所述候选产品
5、根据所述提示语句、所述候选产品类目集合及所述数据对构建每一所述待匹配产品名称的提示文本;
6、根据所述提示文本以及与所述提示文本对应的回答文本构建微调样本;其中,所述回答文本为所述待匹配产品名称在所述统计用产品分类目录中所述的产品类目;
7、使用所述微调样本对预训练的大语言模型进行微调,以生成产品类目匹配模型。
8、可选地,所述获取每一待匹配产品名称的候选产品类目集合、每一待匹配产品名称的若干个提示语句及若干个数据对,包括:
9、当所述待匹配产品名称在所述统计用产品分类目录中时,在所述统计用产品分类目录中查找到所述待匹配产品名称所属的第一产品类目;
10、将所述第一产品类目、与所述第一产品类目在所述统计用产品分类目录中同一级的其他产品类目组成的集合作为所述候选产品类目集合。
11、可选地,所述获取每一待匹配产品名称的候选产品类目集合、每一待匹配产品名称的若干个提示语句及若干个数据对,包括:
12、当所述待匹配产品名称不在所述统计用产品分类目录中时,根据所述待匹配产品名称判断所述待匹配产品名称的产品特征;
13、在所述统计用产品分类目录中查找到与所述产品特征所属的第二产品类目;
14、将所述第二产品类目、与所述第二产品类目在所述统计用产品分类目录中同一级的其他产品类目组成的集合作为所述候选产品类目集合。
15、第二方面,提供了一种产品类目的匹配方法,所述匹配方法,包括:
16、获取至少两个目标产品名称的提示文本;其中,所述提示文本用于引导产品类目匹配模型输出所述目标产品名称在统计用产品分类目录中所属的产品类目;所述产品类目匹配模型根据上述中任一项产品类目匹配模型的生成方法生成。
17、将所述提示文本输入产品类目匹配模型,以得到与所述提示文本对应的回答文本;其中,所述回答文本为所述产品类目匹配模型根据所述提示文本回答的产品类目;
18、根据所述回答文本,确定目标产品类目;
19、可选地,所述根据所述回答文本,确定目标产品类目,包括:
20、获取所述目标产品名称的候选产品类目集合;其中,所述候选产品类目集合为目标产品名称在统计用产品分类目录中所属的产品类目和与该产品类目同一级的其他产品类目组成的集合;
21、若所述回答文本中有在所述候选产品类目集合中的,则通过投票法筛选出在所述候选产品类目集合中出现最多次的回答文本,作为所述目标产品类目;
22、若所述回答文本均不在所述候选产品类目集合中,则计算每一所述回答文本和所述候选产品类目集合中的产品类目的余弦相似度,并将所述余弦相似度的最大值对应的产品类目作为目标产品类目。
23、第三方面,提供了一种产品类目匹配模型的生成装置,所述生成装置包括:
24、第一获取模块,用于获取每一待匹配产品名称的候选产品类目集合、每一待匹配产品名称的若干个提示语句及若干个数据对;其中,所述候选产品类目集合是待匹配产品名称在统计用产品分类目录中所属的产品类目以及与该产品类目同一级的其他产品类目组成的集合;所述提示语句用于为预训练的大语言模型提供待匹配产品名称的信息以及指导所述大语言模型的输出;所述数据对包括所述统计用产品分类目录中的产品名称和与所述产品名称在所述统计用产品分类目录中所属的产品类目;
25、第一构建模块,用于根据所述提示语句、所述候选产品类目集合及所述数据对构建每一所述待匹配产品名称的提示文本;
26、第二构建模块,用于根据所述提示文本以及与所述提示文本对应的回答文本构建微调样本;其中,所述回答文本为所述待匹配产品名称在所述统计用产品分类目录中所述的产品类目;
27、生成模块,用于使用所述微调样本对预训练的大语言模型进行微调,以生成产品类目匹配模型。
28、可选地,所述第一获取模块包括:
29、第一查找单元,用于当所述待匹配产品名称在所述统计用产品分类目录中时,在所述统计用产品分类目录中查找到所述待匹配产品名称所属的第一产品类目;
30、第一作为单元,用于将所述第一产品类目、与所述第一产品类目在所述统计用产品分类目录中同一级的其他产品类目组成的集合作为所述候选产品类目集合。
31、可选地,所述第一获取模块还包括:
32、判断单元,用于当所述待匹配产品名称不在所述统计用产品分类目录中时,根据所述待匹配产品名称判断所述待匹配产品名称的产品特征;
33、第二查找单元,用于在所述统计用产品分类目录中查找到与所述产品特征所属的第二产品类目;
34、第二作为单元,用于将所述第二产品类目、与所述第二产品类目在所述统计用产品分类目录中同一级的其他产品类目组成的集合作为所述候选产品类目集合。
35、第四方面,提供了.一种产品类目的匹配装置,所述匹配装置,包括:
36、第二获取模块,用于获取至少两个目标产品名称的提示文本;其中,所述提示文本用本文档来自技高网...
【技术保护点】
1.一种产品类目匹配模型的生成方法,其特征在于,所述生成方法包括:
2.如权利要求1所述的生成方法,其特征在于,所述获取每一待匹配产品名称的候选产品类目集合、每一待匹配产品名称的若干个提示语句及若干个数据对,包括:
3.如权利要求1所述的生成方法,其特征在于,所述获取每一待匹配产品名称的候选产品类目集合、每一待匹配产品名称的若干个提示语句及若干个数据对,包括:
4.一种产品类目的匹配方法,其特征在于,所述匹配方法,包括:
5.如权利要求4所述的匹配方法,其特征在于,所述根据所述回答文本,确定目标产品类目,包括:
6.一种产品类目匹配模型的生成装置,其特征在于,所述生成装置包括:
7.一种产品类目的匹配装置,其特征在于,所述匹配装置,包括:
8.一种电子设备,包括存储器、处理器及存储在存储器上并用于在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述的产品类目匹配模型的生成方法或权利要求4至5中任一项所述的产品类目的匹配方法。
9.一种计算
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的产品类目匹配模型的生成方法或权利要求4至5中任一项所述的产品类目的匹配方法。
...【技术特征摘要】
1.一种产品类目匹配模型的生成方法,其特征在于,所述生成方法包括:
2.如权利要求1所述的生成方法,其特征在于,所述获取每一待匹配产品名称的候选产品类目集合、每一待匹配产品名称的若干个提示语句及若干个数据对,包括:
3.如权利要求1所述的生成方法,其特征在于,所述获取每一待匹配产品名称的候选产品类目集合、每一待匹配产品名称的若干个提示语句及若干个数据对,包括:
4.一种产品类目的匹配方法,其特征在于,所述匹配方法,包括:
5.如权利要求4所述的匹配方法,其特征在于,所述根据所述回答文本,确定目标产品类目,包括:
6.一种产品类目匹配模型的生成装置,其特征在于,所述生成装置包括:
7.一种产品类目的匹配装置,其特征在...
【专利技术属性】
技术研发人员:赵爽,夏天,蔡华,王浩然,李帅帅,史可欢,
申请(专利权)人:华院计算技术上海股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。