System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 有监督数据构建方法、装置、电子设备和存储介质制造方法及图纸_技高网

有监督数据构建方法、装置、电子设备和存储介质制造方法及图纸

技术编号:45002540 阅读:3 留言:0更新日期:2025-04-15 17:16
本发明专利技术提供一种有监督数据构建方法、装置、电子设备和存储介质,其中方法包括:获取有监督任务的任务描述文本、种子指令和输入数据;基于任务描述文本,对种子指令进行指令扩写,得到扩写指令;基于输入数据,对扩写指令进行指令泛化,得到任务指令;将任务指令输入到问答模型中,得到问答模型输出的任务指令的输出数据;基于任务指令和输出数据,构建有监督数据。本发明专利技术提供的方法、装置、电子设备和存储介质,通过自动化的指令优化,大大降低了模型合成方式的使用门槛,且仅需输入任务描述文本,即可保证有监督数据和有监督任务的贴合度,有效保证了有监督数据构建的通用性,实现了有监督数据的构建效率和数据质量的均衡优化。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种有监督数据构建方法、装置、电子设备和存储介质


技术介绍

1、在人工智能
,有监督数据的规模和质量对于训练所得模型的表现有着决定性的影响。

2、目前,有监督数据的获取,可以通过模型合成的方式实现。模型合成具体是利用模型进行数据合成,由此降低人工干预的成本,但是,模型合成通常需要针对性地对指令(prompt)进行优化,这导致模型合成的使用门槛偏高、通用性较差,难以快速产生大量优质的有监督数据。


技术实现思路

1、本专利技术提供一种有监督数据构建方法、装置、电子设备和存储介质,用以解决相关技术中有监督数据合成的使用门槛高、通用性差的缺陷。

2、本专利技术提供一种有监督数据构建方法,包括:

3、获取有监督任务的任务描述文本、种子指令和输入数据;

4、基于所述任务描述文本,对所述种子指令进行指令扩写,得到扩写指令;

5、基于所述输入数据,对所述扩写指令进行指令泛化,得到任务指令;

6、将所述任务指令输入到问答模型中,得到所述问答模型输出的所述任务指令的输出数据;

7、基于所述任务指令和所述输出数据,构建有监督数据。

8、根据本专利技术提供的一种有监督数据构建方法,所述基于所述任务描述文本,对所述种子指令进行指令扩写,得到扩写指令,包括:

9、基于所述任务描述文本,或基于所述任务描述文本和补充指令片段,对所述种子指令进行指令扩写,得到候选指令;

10、对所述候选指令进行去重处理和/或指令质检,得到所述扩写指令,所述指令质检基于所述任务描述文本执行。

11、根据本专利技术提供的一种有监督数据构建方法,所述基于所述任务描述文本,或基于所述任务描述文本和补充指令片段,对所述种子指令进行指令扩写,得到候选指令,包括:

12、从所述种子指令和已生成的扩写指令中抽取样本指令;

13、基于所述任务描述文本,或基于所述任务描述文本和补充指令片段,对所述样本指令进行指令扩写,得到候选指令。

14、根据本专利技术提供的一种有监督数据构建方法,所述基于所述输入数据,对所述扩写指令进行指令泛化,得到任务指令,包括:

15、基于预设概率,触发所述扩写指令按照预设风格模板所提供的风格进行融合所述输入数据的指令泛化,得到所述任务指令。

16、根据本专利技术提供的一种有监督数据构建方法,所述基于所述任务指令和所述输出数据,构建有监督数据,包括:

17、对所述任务指令进行指令质检,对所述输出数据进行响应质检;

18、在所述任务指令通过所述指令质检、且所述输出数据通过所述响应质检的情况下,基于所述任务指令和所述输出数据,构建有监督数据。

19、根据本专利技术提供的一种有监督数据构建方法,所述输入数据的获取,包括:

20、获取原始数据,以及各候选任务;

21、将所述原始数据与各所述候选任务进行匹配,基于匹配结果从各所述候选任务中确定出与所述原始数据相匹配的候选任务,并将所述原始数据作为相匹配的候选任务的输入数据。

22、本专利技术还提供一种有监督数据构建装置,包括:

23、获取单元,用于获取有监督任务的任务描述文本、种子指令和输入数据;

24、扩写单元,用于基于所述任务描述文本,对所述种子指令进行指令扩写,得到扩写指令;

25、泛化单元,用于基于所述输入数据,对所述扩写指令进行指令泛化,得到任务指令;

26、问答单元,用于将所述任务指令输入到问答模型中,得到所述问答模型输出的所述任务指令的输出数据;

27、构建单元,用于基于所述任务指令和所述输出数据,构建有监督数据。

28、本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述有监督数据构建方法。

29、本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述有监督数据构建方法。

30、本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述有监督数据构建方法。

31、本专利技术提供的有监督数据构建方法、装置、电子设备和存储介质,基于有监督任务的任务描述文本,对种子指令进行指令扩写,并基于有监督任务的输入数据,对扩写所得的扩写指令进行指令泛化,由此得到规模更大、多样性更丰富、且能够与有监督任务本身匹配的任务指令。再基于任务指令进行有监督数据的模型合成,即可实现有监督数据的构建。在此过程中,通过自动化的指令优化,大大降低了模型合成方式的使用门槛,且仅需输入任务描述文本,即可保证有监督数据和有监督任务的贴合度,有效保证了有监督数据构建的通用性,实现了有监督数据的构建效率和数据质量的均衡优化。

32、另外,任务描述文本的设置,可以覆盖到不同的实际应用场景,使得有监督数据构建可以以快速、且成本更低的方式迁移到各种任务上,由此可以显著提高有监督数据构建方法的易用性和场景覆盖率。

本文档来自技高网...

【技术保护点】

1.一种有监督数据构建方法,其特征在于,包括:

2.根据权利要求1所述的有监督数据构建方法 ,其特征在于,所述基于所述任务描述文本,对所述种子指令进行指令扩写,得到扩写指令,包括:

3.根据权利要求2所述的有监督数据构建方法,其特征在于,所述基于所述任务描述文本,或基于所述任务描述文本和补充指令片段,对所述种子指令进行指令扩写,得到候选指令,包括:

4.根据权利要求1所述的有监督数据构建方法,其特征在于,所述基于所述输入数据,对所述扩写指令进行指令泛化,得到任务指令,包括:

5.根据权利要求1所述的有监督数据构建方法,其特征在于,所述基于所述任务指令和所述输出数据,构建有监督数据,包括:

6.根据权利要求1至5中任一项所述的有监督数据构建方法,其特征在于,所述输入数据的获取,包括:

7.一种有监督数据构建装置,其特征在于,包括:

8.一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述有监督数据构建方法。

9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述有监督数据构建方法。

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述有监督数据构建方法。

...

【技术特征摘要】

1.一种有监督数据构建方法,其特征在于,包括:

2.根据权利要求1所述的有监督数据构建方法 ,其特征在于,所述基于所述任务描述文本,对所述种子指令进行指令扩写,得到扩写指令,包括:

3.根据权利要求2所述的有监督数据构建方法,其特征在于,所述基于所述任务描述文本,或基于所述任务描述文本和补充指令片段,对所述种子指令进行指令扩写,得到候选指令,包括:

4.根据权利要求1所述的有监督数据构建方法,其特征在于,所述基于所述输入数据,对所述扩写指令进行指令泛化,得到任务指令,包括:

5.根据权利要求1所述的有监督数据构建方法,其特征在于,所述基于所述任务指令和所述输出数据,构建有监督数据,包括:

...

【专利技术属性】
技术研发人员:李永强张为泰叶忠义王豹吴峥刘俊华
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1