System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于搜索引擎,具体为一种基于少量标注数据的魔盒相关性训练样本增强与扩充方法。
技术介绍
1、在搜索引擎和推荐系统中,搜索相关性是衡量系统性能的重要指标之一,它直接关系到用户能否快速准确地找到所需信息,特别是在汽车领域的搜索场景中,如汽车之家等应用,搜索相关性的重要性更为突出,其中,魔盒作为一种特殊的搜索结果展示形式,位于搜索结果的首位,承载着主要的搜索需求,其相关性的好坏直接决定了用户的搜索体验和满意度,然而,魔盒相关性的优化面临诸多挑战,首先,汽车app中的检索词往往短小精悍,但背后可能蕴含丰富的信息,如车型、品牌、排量等,因此,在判断魔盒与检索词的相关性时,除了考虑检索词与魔盒标题的匹配外,还需综合考虑检索词与魔盒类型、魔盒中展示的车型标题、车型属性字段等多方面的匹配关系,这种复杂的匹配逻辑使得相关性标注的难度显著增加,其次,由于四大类魔盒(车型、车系、品牌、厂商)在单个检索词下只展示唯一正确的结果,这种设定对相关性错误几乎零容忍,一旦模型预测错误,将直接导致用户无法找到所需信息,严重影响用户体验,在传统的标注方法中,人工标注虽然能够保证样本的高质量,但其耗时长、成本高的缺点却不容忽视,随着深度学习技术在自然语言处理领域的广泛应用,基于深度语义匹配模型的搜索相关性优化成为了一种新的解决方案,然而,这类模型需要大量无偏的高质量标注样本进行训练,以保证其泛化能力和准确性,因此,需要对其进行改进和优化。
技术实现思路
1、本专利技术的目的在于提供一种基于少量标注数据的魔盒相
2、为了实现上述目的,本专利技术提供如下技术方案:一种基于少量标注数据的魔盒相关性训练样本增强与扩充方法,该方法的具体步骤包括;
3、步骤一,项目初期:快速构建训练框架与基础样本生成;
4、步骤二,项目中期:人工介入与样本质量提升;
5、步骤三,项目提升阶段:持续优化与样本扩充;
6、步骤四,模型层面优化:对比学习样本增强。
7、优选地,所述步骤一中快速构建训练框架与基础样本生成的具体步骤包括;
8、a1,确立快速标注策略:基于魔盒在检索词下的点击率与相关性基本正相关的观察,采用点击率作为相关性标注的初步指标;
9、a2,后验点击率标注的优势:
10、a2-1,高效性:快速生成大量训练样本,加速模型训练周期;
11、a2-2,无偏性:反映用户真实行为,减少人为偏见;
12、a3,应对缺点:
13、数据噪声:意识到数据质量不高,为后续优化预留空间。
14、优选地,所述a1中确立快速标注策略的具体步骤包括;
15、b1,利用点击率数据作为初步指标:
16、b1-1,观察基础:基于历史数据分析,发现魔盒在特定检索词下的点击率与其内容的相关性存在基本正相关的关系;
17、b1-2,标注方法:采用点击率作为相关性标注的初步指标;
18、b2,数据清洗以减少噪声:
19、b2-1,低频曝光处理:去除低频曝光的样本,减少因展示机会不均等引入的噪声;
20、b2-2,中等点击率样本筛选:去除这部分中等点击率的样本,简化标注过程并提高标注效率;
21、b3,设定动态阈值以适应数据差异性:
22、b3-1,差异性考虑:关注不同检索词和魔盒之间的点击率存在显著差异;
23、b3-2,动态阈值设定:针对不同检索词和魔盒动态设定点击率准入阈值,从而更准确地反映差异性;
24、b4,扩充内容以提升标注全面性:
25、b4-1,多维度考量:除了点击率这一主要指标外,引入其他维度的信息来辅助标注过程;
26、b4-2,综合标注:通过综合考虑多个维度的信息,更加全面、准确地评估魔盒与检索词之间的相关性,并生成更具代表性的训练样本集。
27、优选地,所述步骤二中人工介入与样本质量提升的具体步骤包括;
28、c1,模型打分与难分样本筛选:
29、c1-1,模型初筛:使用基于点击率标注的模型对日志数据进行打分;
30、c1-2,难分样本识别:筛选出打分模糊或与点击率不符的样本,作为人工标注的重点;
31、c2,人工标注与样本空间解决:对难分样本进行人工标注,添加易分样本,利用海量点击率标注样本预训练模型,再结合难分与易分样本进行微调。
32、优选地,所述c2中人工标注与样本空间解决的具体步骤包括;
33、d1,高质量标注:对难分样本进行人工标注:
34、d1-1,识别难分样本:通过算法初步筛选出一批难以自动分类的样本,分析样本位于类别边界、具有模糊的特征;
35、d1-2,人工审核与标注:将难分样本提交给具有专业知识和经验的人工标注团队进行审核和标注;
36、d1-3,反馈循环:将人工标注的结果反馈回模型,用于调整和优化自动标注算法,形成良性循环;
37、d2,样本多样性增强:添加易分样本:
38、d2-1,极端案例添加:为了增加样本的多样性,添加一些极端案例,包括极端高、低点击率的样本;
39、d2-2,query与魔盒名匹配样本:除了极端案例外,添加一些query与魔盒名直接匹配、高度相似的样本;
40、d2-3,混合策略:将易分样本与难分样本按一定比例混合,形成多样化的训练集;
41、d3,预训练与微调:
42、d3-1,海量点击率标注样本预训练:利用海量的、基于点击率自动标注的样本对模型进行预训练;
43、d3-2,结合难分与易分样本微调:在预训练的基础上,使用经过人工标注的高质量难分样本和增强后的易分样本对模型进行微调;
44、d3-3,迭代优化:通过多次迭代预训练和微调的过程,不断优化模型的性能。
45、优选地,所述步骤三中持续优化与样本扩充的具体步骤包括;
46、e1,针对性人工样本构造:
47、e1-1,问题导向:针对模型优化中遇到的具体问题,包括魔盒别名、过召回、多魔盒映射,构造特定样本;
48、e1-2,保持分布:在不影响整体样本分布的前提下,精准引入问题相关样本;
49、e2,基于置信学习的自动化样本筛选:
50、e2-1,迭代优化:使用高质量样本作为种子,在大规模ctr样本中自动化筛选tn/tp样本,迭代优化训练集;
51、e2-2,提升效率:减少人工依赖,加速样本扩充过程;
52、e3,强规则样本修正:
53、e3-1,规则驱动:利用业务知识和强规则,对训练样本进行修正,进一步提升样本质量;
54、e4,样本混合与f i netune:将难分、易分、人工构建、自动化标注、强本文档来自技高网...
【技术保护点】
1.一种基于少量标注数据的魔盒相关性训练样本增强与扩充方法,其特征在于:该方法的具体步骤包括;
2.根据权利要求1所述的一种基于少量标注数据的魔盒相关性训练样本增强与扩充方法,其特征在于:所述步骤一中快速构建训练框架与基础样本生成的具体步骤包括;
3.根据权利要求2所述的一种基于少量标注数据的魔盒相关性训练样本增强与扩充方法,其特征在于:所述A1中确立快速标注策略的具体步骤包括;
4.根据权利要求1所述的一种基于少量标注数据的魔盒相关性训练样本增强与扩充方法,其特征在于:所述步骤二中人工介入与样本质量提升的具体步骤包括;
5.根据权利要求4所述的一种基于少量标注数据的魔盒相关性训练样本增强与扩充方法,其特征在于:所述C2中人工标注与样本空间解决的具体步骤包括;
6.根据权利要求1所述的一种基于少量标注数据的魔盒相关性训练样本增强与扩充方法,其特征在于:所述步骤三中持续优化与样本扩充的具体步骤包括;
7.根据权利要求6所述的一种基于少量标注数据的魔盒相关性训练样本增强与扩充方法,其特征在于:所述E4中样本混合与
8.根据权利要求1所述的一种基于少量标注数据的魔盒相关性训练样本增强与扩充方法,其特征在于:所述步骤四中对比学习样本增强的具体步骤包括;
...【技术特征摘要】
1.一种基于少量标注数据的魔盒相关性训练样本增强与扩充方法,其特征在于:该方法的具体步骤包括;
2.根据权利要求1所述的一种基于少量标注数据的魔盒相关性训练样本增强与扩充方法,其特征在于:所述步骤一中快速构建训练框架与基础样本生成的具体步骤包括;
3.根据权利要求2所述的一种基于少量标注数据的魔盒相关性训练样本增强与扩充方法,其特征在于:所述a1中确立快速标注策略的具体步骤包括;
4.根据权利要求1所述的一种基于少量标注数据的魔盒相关性训练样本增强与扩充方法,其特征在于:所述步骤二中人工介入与样本质量提升的具体步骤包括;
5.根据权利...
【专利技术属性】
技术研发人员:李伟,林熙耀,张佳伟,马亚恒,
申请(专利权)人:海南车智易通信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。