一种问答数据集的生成方法及装置制造方法及图纸

技术编号:39825739 阅读:8 留言:0更新日期:2023-12-29 16:00
本申请公开一种问答数据集的生成方法及装置,可应用于自然语言处理,领域,包括,获取问答数据集的生成信息以及第一数量的预设格式的问答数据集样本,其中,问答数据集样本包括问答数据集的领域类型以及与领域类型对应的包括提问数据以及回答数据的问答数据,训练自然语言模型所需的问答数据集的数量为第二数量,第一数量少于第二数量,然后将问答数据集样本以及生成信息输入至预先训练好的大语言模型,输出与问答数据集样本的领域类型以及格式相同的目标问答数据集,这样人工只需预先标注第一数量的问答数据集样本,从而无需人工标注第二数量的问答数据集样本,也就可以在生成问答数据集样本

【技术实现步骤摘要】
一种问答数据集的生成方法及装置


[0001]本申请涉及自然语言处理领域,特别是涉及一种问答数据集的生成方法及装置


技术介绍

[0002]自然语言处理
NLP
是一种机器学习技术,使计算机能够解读

处理和理解人类语言
。NLP
可以用于分析消息中的意图或情绪,分析和排序用户查询的问题,自动回复常见问题等领域

为了使
NLP
处理问题更加高效,往往需要对
NLP
模型进行训练

[0003]目前,对
NLP
模型的训练过程一般需要人工去标注大量的训练数据,从而通过训练数据对
NLP
模型进行训练,由于需要标注的训练数据的数量比较大,所以在对训练数据进行标注的过程中需要消耗大量的人力资源,从而导致人力成本较高

[0004]因此,如何在生成训练数据的过程中节约人力资源,降低人力成本是本领域技术人员亟需解决的技术问题


技术实现思路

[0005]本申请提供一种问答数据集的生成方法,以便在生成训练数据的过程中节约人力资源,降低人力成本,本申请还提供一种问答数据集的生成方法装置

[0006]第一方面,本申请提供一种问答数据集的生成方法,包括:
[0007]获取问答数据集的生成信息以及第一数量的预设格式的问答数据集样本,所述问答数据集样本包括问答数据集的领域类型以及与所述领域类型对应的问答数据;一个所述问答数据集样本对应一组问答数据,所述问答数据包括提问数据以及回答数据,训练自然语言模型所需的问答数据集的数量为第二数量,所述第一数量少于所述第二数量;
[0008]将所述问答数据集样本以及所述生成信息输入至预先训练好的大语言模型,输出与所述问答数据集样本的领域类型以及格式相同的目标问答数据集

[0009]可选的,所述生成信息包括回答数据的生成规则,所述将所述问答数据集样本以及所述生成信息输入至所述大语言模型,输出所述目标问答数据集,包括:
[0010]将所述问答数据集样本以及所述生成信息输入至所述大语言模型,根据所述回答数据的生成规则,输出符合所述生成规则的所述目标问答数据集,所述生成规则用于指示所述问答数据按照所述生成规则中的角度回答所述提问数据

[0011]可选的,所述问答数据集样本还包括领域类型的主题,所述领域类型对应的问答数据为所述领域类型的主题对应的问答数据,所述生成信息包括目标问答数据集的主题信息,所述将所述问答数据集样本以及所述生成信息输入至所述大语言模型,输出所述目标问答数据集,包括:
[0012]将所述问答数据集样本以及所述生成信息输入至所述大语言模型,根据所述主题信息,输出与所述问答数据集样本的所述主题相同或不同的所述目标问答数据集

[0013]可选的,所述方法还包括:
[0014]根据预设的过滤规则,对所述目标问答数据集中的数据进行过滤,以过滤掉所述
目标问答数据集中的冗余数据

[0015]可选的,所述方法还包括:
[0016]对所述目标问答数据集进行拆分,获得所述目标问答数据集对应的领域类型的主题以及目标问答数据;
[0017]将所述目标问答数据存储至第一数据池且当所述主题在第二数据池中不存在时,将所述主题存储至第二数据池
[0018]第二方面,本申请还提供一种问答数据集的生成装置,包括:
[0019]第一获取单元,用于获取问答数据集的生成信息以及第一数量的预设格式的问答数据集样本,所述问答数据集样本包括问答数据集的领域类型以及与所述领域类型对应的问答数据;一个所述问答数据集样本对应一组问答数据,所述问答数据包括提问数据以及回答数据,训练自然语言模型所需的问答数据集的数量为第二数量,所述第一数量少于所述第二数量;
[0020]输出单元,用于将所述问答数据集样本以及所述生成信息输入至预先训练好的大语言模型,输出与所述问答数据集样本的领域类型以及格式相同的目标问答数据集

[0021]可选的,所述生成信息包括回答数据的生成规则,所述输出单元,具体用于:
[0022]将所述问答数据集样本以及所述生成信息输入至所述大语言模型,根据所述回答数据的生成规则,输出符合所述生成规则的所述目标问答数据集,所述生成规则用于指示所述问答数据按照所述生成规则中的角度回答所述提问数据

[0023]可选的,所述问答数据集样本还包括领域类型的主题,所述领域类型对应的问答数据为所述领域类型的主题对应的问答数据,所述生成信息包括目标问答数据集的主题信息,所述输出单元,具体用于:
[0024]将所述问答数据集样本以及所述生成信息输入至所述大语言模型,根据所述主题信息,输出与所述问答数据集样本的所述主题相同或不同的所述目标问答数据集

[0025]可选的,所述装置还包括:
[0026]过滤单元,用于根据预设的过滤规则,对所述目标问答数据集中的数据进行过滤,以过滤掉所述目标问答数据集中的冗余数据

[0027]可选的,所述装置还包括:
[0028]拆分单元,用于对所述目标问答数据集进行拆分,获得所述目标问答数据集对应的领域类型的主题以及目标问答数据;
[0029]存储单元,用于将所述目标问答数据存储至第一数据池且当所述主题在第二数据池中不存在时,将所述主题存储至第二数据池

[0030]第三方面,本申请实施例提供了一种设备,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行前述第一方面任一项所述的方法

[0031]第四方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现前述第一方面任一项所述的方法

[0032]相较于现有技术,本申请具有以下有益效果:
[0033]本申请获取问答数据集的生成信息以及第一数量的预设格式的问答数据集样本,
其中,问答数据集样本包括问答数据集的领域类型以及与领域类型对应的包括提问数据以及回答数据的问答数据,训练自然语言模型所需的问答数据集的数量为第二数量,第一数量少于第二数量,然后将问答数据集样本以及生成信息输入至预先训练好的大语言模型,输出与问答数据集样本的领域类型以及格式相同的目标问答数据集,这样人工只需预先标注第一数量的问答数据集样本,大语言模型就可以根据问答数据集样本输出与问答数据集样本的领域类型以及格式相同的目标问答数据集,从而无需人工标注第二数量的问答数据集样本,也就可以在生成问答数据集样本
(
训练数据
)
的过程中节约人力资源,降低人力成本

附图说明
[0034]为更清楚地说明本实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种问答数据集的生成方法,其特征在于,包括:获取问答数据集的生成信息以及第一数量的预设格式的问答数据集样本,所述问答数据集样本包括问答数据集的领域类型以及与所述领域类型对应的问答数据;一个所述问答数据集样本对应一组问答数据,所述问答数据包括提问数据以及回答数据,训练自然语言模型所需的问答数据集的数量为第二数量,所述第一数量少于所述第二数量;将所述问答数据集样本以及所述生成信息输入至预先训练好的大语言模型,输出与所述问答数据集样本的领域类型以及格式相同的目标问答数据集
。2.
根据权利要求1所述的方法,其特征在于,所述生成信息包括回答数据的生成规则,所述将所述问答数据集样本以及所述生成信息输入至所述大语言模型,输出所述目标问答数据集,包括:将所述问答数据集样本以及所述生成信息输入至所述大语言模型,根据所述回答数据的生成规则,输出符合所述生成规则的所述目标问答数据集,所述生成规则用于指示所述问答数据按照所述生成规则中的角度回答所述提问数据
。3.
根据权利要求1所述的方法,其特征在于,所述问答数据集样本还包括领域类型的主题,所述领域类型对应的问答数据为所述领域类型的主题对应的问答数据,所述生成信息包括目标问答数据集的主题信息,所述将所述问答数据集样本以及所述生成信息输入至所述大语言模型,输出所述目标问答数据集,包括:将所述问答数据集样本以及所述生成信息输入至所述大语言模型,根据所述主题信息,输出与所述问答数据集样本的所述主题相同或不同的所述目标问答数据集
。4.
根据权利要求1‑3任一项所述的方法,其特征在于,所述方法还包括:根据预设的过滤规则,对所述目标问答数据集中的数据进行过滤,以过滤掉所述目标问答数据集中的冗余数据
。5.
根据权利要求3所述的方法,其特征在于,所述方法还包括:对所述目标问答数据集进行拆分,获得所述目标问答数据集对应的领域类型的主题以及目标问答数据;将所述目标问答数据存储至第一数据池且当所述主题在第二数据池中不存在时,将所述主题存储至第二数据池...

【专利技术属性】
技术研发人员:方凡
申请(专利权)人:太保科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1