System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据处理方法及装置制造方法及图纸_技高网

一种数据处理方法及装置制造方法及图纸

技术编号:44327040 阅读:0 留言:0更新日期:2025-02-18 20:35
本发明专利技术公开一种数据处理方法及装置,涉及数据处理领域,用于解决公开数据集中的数据多样性较差的问题。其中方法包括:获取第一指令数据,并使用第一话术模板将第一指令数据发送给第一模型,获取第一模型输出的第二指令数据,并使用第一话术模板将第一指令数据和第二指令数据发送给第一模型,获取第一模型输出的第三指令数据,其中,第一模型用于根据输入的指令数据所属的领域输出同一领域的其他指令数据,第一指令数据、第二指令数据和第三指令数据用于共同作为第二模型的训练数据。通过以上方案,可以获取具有多样性的指令数据。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,尤其涉及一种数据处理方法及装置


技术介绍

1、在对模型进行训练和微调的过程中,需要用到指令数据。目前是通过公开数据集来获取指令数据,然而,一些公开数据集中的指令数据没有及时更新,数据比较陈旧,多样性也比较差,导致模型训练效果和微调效果较差。

2、因此,如何获取多样性的指令数据,是目前亟需解决的问题。


技术实现思路

1、本专利技术提供一种数据处理方法及装置,用于获取具有多样性的指令数据。

2、第一方面,本专利技术提供一种数据处理方法,该方法包括:获取第一指令数据,使用第一话术模板将第一指令数据发送给第一模型,并获取第一模型输出的第二指令数据,使用第一话术模板将第一指令数据和第二指令数据发送给第一模型,并获取第一模型输出的第三指令数据,其中,第一模型用于根据输入的指令数据所属的领域输出同一领域的其他指令数据,第一指令数据、第二指令数据和第三指令数据用于共同作为第二模型的训练数据。

3、通过以上方案,可以根据第一话术模板定制任务需求,以此生成定制化的多种指令数据,包括第二指令数据和第三指令数据,以确保这多种指令数据可以匹配特定的领域或应用场景,提高多样性的同时,满足所属领域的定制化需求。另外,利用第一模型和第一指令数据,可以生成比第一指令数据更新的指令数据,从而确保数据的时效性,同时还能具有比较低的成本和较高的生成效率,且不涉及法律和版权的问题。基于此,以上方案可以高效率、低成本地生成质量高、可以定制的、实时的指令数据,以供第二模型训练或微调使用,解决现有技术中利用公开数据集获取指令数据所存在的定制性不足、数据陈旧、数据质量差、涉及法律和版权等问题,相比于一些方案中利用自有数据和众包数据获取数据的数据量有限、成本高等问题,本方案可以低成本、高效率的获取大量的指令数据。

4、可选的,获取第一模型输出的第三指令数据之后,还包括:将第三指令数据和第二指令数据作为更新的第二指令数据,使用第一话术模板将第一指令数据和更新的第二指令数据发送给第一模型,并获取第一模型输出的第三指令数据,重复上述步骤,直至全部指令数据的数量达到设定数量。

5、通过以上方案,在后续发送给第一模型的指令中,既包含人工编写的第一指令数据,也包含之前第一模型生成的第二指令数据或第三指令数据,第一模型可以结合两种指令数据生成新的指令数据。通过将第一指令数据和第一模型生成的指令数据混合使用,可以增加数据的泛化性;如果完全依赖第一指令数据,第一模型可能会对这些特定指令过度拟合,缺乏通用性,而通过不断地在第一模型生成指令的基础上进一步生成,可以使生成的数据更具语义多样性和复杂性。

6、可选的,获取第一模型输出的第二指令数据或第三指令数据之后,还包括:删除第二指令数据或第三指令数据中包含预设关键字的指令数据,其中,包含预设关键字的指令数据为第一模型无法处理的指令数据,和\或,删除第二指令数据或第三指令数据中与第一指令数据相似度大于预设阈值的指令数据。

7、通过以上方案,可以筛选掉低质量的数据,保留高质量、具有多样性的数据,减少噪声和错误信息。

8、可选的,获取第一模型输出的第三指令数据之后,还包括:使用第二话术模板将第二指令数据和第三指令数据发送给第一模型,并获取第一模型输出的响应数据。

9、将生成的指令数据和预设的第二话术模板发送给第一模型,可以得到指令数据对应的输入数据和输出数据,将指令数据、输入数据、输出数据组合在一起,即可构建完整的指令微调数据。

10、可选的,第一话术模板包括输出数据要求和输出格式要求,输出数据要求用于限制第一模型输出指令数据的领域和数量,输出格式要求用于限制第一模型输出指令数据的格式。

11、通过以上方案,通过修改第一话术模板的输出数据要求或输出格式要求,可以生成设定数量的专注于某领域的数据,进而实现定制化生成数据。

12、可选的,第一指令数据具有n条,第二指令数据具有m条,第三指令数据是使用n条第一指令数据中的部分和m条第二指令数据中的全部或部分生成的,n为大于或等于2的整数,m为正整数。如此,通过选取部分指令数据,可以增加第一模型生成第三指令数据的随机性。

13、可选的,使用第一话术模板将第一指令数据发送给第一模型之前,还包括:确定第一指令数据所属的领域,从预设的多个领域和话术模板的对应关系中,获取领域对应的第一话术模板。如此,可以直接查询对应关系找到对应的模板,而无需重新分析识别,效率较高,且,在后续根据第一话术模板和第一指令数据获得第二指令数据时,可以确保第一指令数据和第二指令数据属于同一领域的数据。

14、第二方面,本专利技术提供一种数据处理装置,该装置包括:

15、获取模块,用于获取第一指令数据;

16、发送模块,根据第一话术模板将第一指令数据发送给第一模型,并获取第一模型输出的第二指令数据,其中,第一模型用于根据输入的指令数据所属的领域输出同一领域的其他指令数据;

17、发送模块,还用于使用第一话术模板将第一指令数据和第二指令数据发送给第一模型,并获取第一模型输出的第三指令数据,第一指令数据、第二指令数据和第三指令数据用于共同作为第二模型的训练数据。

18、在一种可能的实现方式中,发送模块还用于:将第三指令数据和第二指令数据作为更新的第二指令数据,使用第一话术模板将第一指令数据和更新的第二指令数据发送给第一模型,并获取第一模型输出的第三指令数据,重复上述步骤,直至全部指令数据的数量达到设定数量。

19、在一种可能的实现方式中,还包括删除模块,用于:删除第二指令数据或第三指令数据中包含预设关键字的指令数据,其中,包含预设关键字的指令数据为第一模型无法处理的指令数据,和\或,删除第二指令数据或第三指令数据中与第一指令数据相似度大于预设阈值的指令数据。

20、在一种可能的实现方式中,发送模块还用于:使用第二话术模板将第二指令数据和第三指令数据发送给第一模型,并获取第一模型输出的响应数据。

21、在一种可能的实现方式中,第一话术模板包括输出数据要求和输出格式要求,输出数据要求用于限制第一模型输出指令数据的领域和数量,格式要求用于限制第一模型输出指令数据的格式。

22、在一种可能的实现方式中,第一指令数据具有n条,第二指令数据具有m条,第三指令数据是使用n条第一指令数据中的部分和m条第二指令数据中的全部或部分生成的,n为大于或等于2的整数,m为正整数。

23、在一种可能的实现方式中,获取模块还用于:确定第一指令数据所属的领域,从预设的多个领域和话术模板的对应关系中,获取领域对应的第一话术模板。

24、第三方面,本申请还提供一种数据处理装置,该设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述计算机程序时,实现如第一方面的各种可能的设计中所述的方法。

25、第四方面,本申请实施例还提供一种计算本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述获取所述第一模型输出的第三指令数据之后,还包括:

3.如权利要求1所述的方法,其特征在于,所述获取所述第一模型输出的第二指令数据或第三指令数据之后,还包括:

4.如权利要求1所述的方法,其特征在于,所述获取所述第一模型输出的第三指令数据之后,还包括:

5.如权利要求1所述的方法,其特征在于,所述第一话术模板包括输出数据要求和输出格式要求,所述输出数据要求用于限制所述第一模型输出指令数据的领域和数量,所述输出格式要求用于限制所述第一模型输出指令数据的格式。

6.如权利要求1至5中任一项所述的方法,其特征在于,所述第一指令数据具有N条,所述第二指令数据具有M条,所述第三指令数据是使用N条所述第一指令数据中的部分和M条所述第二指令数据中的全部或部分生成的,所述N为大于或等于2的整数,所述M为正整数。

7.一种数据处理装置,其特征在于,包括:

8.一种数据处理装置,其特征在于,包括:处理器,所述处理器和存储器耦合,所述存储器用于存储计算机程序或指令,所述处理器用于执行所述计算机程序或指令,以实现如权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行权利要求1至6中任一所述方法的步骤。

10.一种计算机程序产品,其特征在于,当其在计算机上运行时,使得计算机执行如权利要求1至6任一项所述的方法。

...

【技术特征摘要】

1.一种数据处理方法,其特征在于,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述获取所述第一模型输出的第三指令数据之后,还包括:

3.如权利要求1所述的方法,其特征在于,所述获取所述第一模型输出的第二指令数据或第三指令数据之后,还包括:

4.如权利要求1所述的方法,其特征在于,所述获取所述第一模型输出的第三指令数据之后,还包括:

5.如权利要求1所述的方法,其特征在于,所述第一话术模板包括输出数据要求和输出格式要求,所述输出数据要求用于限制所述第一模型输出指令数据的领域和数量,所述输出格式要求用于限制所述第一模型输出指令数据的格式。

6.如权利要求1至5中任一项所述的方法,其特征在于,所述第一指令数据具有n条,所述第二指令数据具...

【专利技术属性】
技术研发人员:李庆崔尧潘广超
申请(专利权)人:北京普洛思博尔投资咨询有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1