语言生成模型的评价方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37670203 阅读:23 留言:0更新日期:2023-05-26 04:31
本申请提供了一种语言生成模型的评价方法、装置、电子设备及存储介质,该方法包括:通过第一模型输出多个语言生成模型的模型比较结果,据此从多个语言生成模型中选择出两个语言生成模型;获取目标测试文本,分别通过两个语言生成模型得到与目标测试文本对应的两个待测文本;将目标测试文本和两个待测文本拼接为输入数据并输入第二模型,根据输出结果得到模型评价结果;根据模型评价结果对第一模型进行更新;根据更新后第一模型输出的模型比较结果,对多个语言生成模型进行评价。该方法通过第一模型对多个语言生成模型进行比较,通过第二模型评价第一模型的比较结果,从而不断更新第一模型以提高准确性,得到更可靠的自然语言生成模型评价结果。生成模型评价结果。生成模型评价结果。

【技术实现步骤摘要】
语言生成模型的评价方法、装置、电子设备及存储介质


[0001]本申请涉及自然语言处理领域,特别涉及一种语言生成模型的评价方法、装置、电子设备及存储介质。

技术介绍

[0002]自然语言生成(Natural Language Generation,NLG)技术,是指利用人工智能和语言学的方法自动生成可理解的自然语言文本。随着将超大规模数据作为样本进行大型语言模型的训练,自然语言生成技术有了飞速的发展,被应用于文案生成、诗词生成等领域。早期自然语言生成更倾向自动化的评价指标,这种指标易于计算但并不可靠。因此在现实应用场景下,多采用更为可靠的人工评估方式来进行自然语言生成技术评估,然而这种方式也存在高成本、存在注释者偏差、高方差和序列效应(当前评价受前面项目的影响)等问题。为解决这类问题,在相关技术中多采用对比方式来评价多个不同的自然语言生成模型,但需要对待评价的目标文本进行大量人工标注,依然存在人工成本较高和可靠性较低的问题。

技术实现思路

[0003]本申请提供一种语言生成模型的评价方法、装置、电子设备及存储介质,本申请实现了通过第一模型对多个语言生成模型进行比较,通过第二模型评价第一模型的比较结果,从而不断更新第一模型以提高准确性,得到更可靠的自然语言生成模型评价结果。。
[0004]第一方面,本申请提供了一种语言生成模型的评价方法,包括以下步骤:
[0005]通过第一模型输出待评价的多个语言生成模型中任意两个语言生成模型之间的模型比较结果,得到多个模型比较结果,并根据多个模型比较结果从多个语言生成模型中选择出第一语言生成模型以及第二语言生成模型,其中,模型比较结果用于表征任意两个语言生成模型的文本生成准确度之间的比较结果;
[0006]获取目标测试文本,并通过第一语言生成模型得到与目标测试文本相对应的第一待测文本,以及通过第二语言生成模型得到与目标测试文本相对应的第二待测文本;
[0007]将目标测试文本、第一待测文本以及第二待测文本拼接为输入数据,将输入数据输入第二模型,根据第二模型的输出结果得到本次评价过程中针对第一语言生成模型以及第二语言生成模型的模型评价结果,模型评价结果用于表征第一语言生成模型生成的第一待测文本和第二语言生成模型生成的第二待测文本之间的准确度比较结果;
[0008]根据模型评价结果对第一模型进行更新;
[0009]根据更新后的第一模型输出的与多个语言生成模型相对应的模型比较结果,对多个语言生成模型进行评价。
[0010]第二方面,本申请提供了一种语言生成模型的评价装置,包括:
[0011]选择模块,用于通过第一模型输出待评价的多个语言生成模型中任意两个语言生成模型之间的模型比较结果,得到多个模型比较结果,并根据多个模型比较结果从多个语
言生成模型中选择出第一语言生成模型以及第二语言生成模型,其中,模型比较结果用于表征任意两个语言生成模型的文本生成准确度之间的比较结果;
[0012]获取模块,用于获取目标测试文本,并通过第一语言生成模型得到与目标测试文本相对应的第一待测文本,以及通过第二语言生成模型得到与目标测试文本相对应的第二待测文本;
[0013]输入模块,用于将目标测试文本、第一待测文本以及第二待测文本拼接为输入数据,将输入数据输入第二模型,根据第二模型的输出结果得到本次评价过程中针对第一语言生成模型以及第二语言生成模型的模型评价结果,模型评价结果用于表征第一语言生成模型生成的第一待测文本和第二语言生成模型生成的第二待测文本之间的准确度比较结果;
[0014]更新模块,用于根据模型评价结果对第一模型进行更新;
[0015]评价模块,用于根据更新后的第一模型输出的与多个语言生成模型相对应的模型比较结果,对多个语言生成模型进行评价。
[0016]第三方面,本申请提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的一个或多个计算机程序,一个或多个计算机程序被至少一个处理器执行,以使至少一个处理器能够执行上述语言生成模型的评价方法。
[0017]第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,其中,计算机程序在被处理器/处理核执行时实现上述语言生成模型的评价方法。
[0018]在本申请提供的一种语言生成模型的评价方法中,首先通过第一模型输出多个语言生成模型两两之间的模型比较结果,根据模型比较结果选出两个语言生成模型;其次将目标测试文本分别放入两个语言生成模型中得到两个待测文本;然后将目标测试文本和两个待测文本拼接为输入数据并输入第二模型,根据输出结果得到模型评价结果并据此对第一模型进行更新;最后根据更新后第一模型输出的模型比较结果,对多个语言生成模型进行评价。由此可见,该方法通过第一模型对多个语言生成模型进行比较,通过第二模型对第一模型的比较结果进行评价,从而实现对第一模型的不断更新迭代,提高第一模型的准确性,得到高可靠性的自然语言生成模型的评价结果;使用第二模型而非人工评价第一模型的准确性,减少人工标注的数量,节约人工成本。
[0019]应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0020]附图用来提供对本申请的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请,并不构成对本申请的限制。通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,在附图中:
[0021]图1为本申请实施例一提供的一种语言生成模型的评价方法的流程图;
[0022]图2为本申请实施例二提供的一种语言生成模型的评价方法的流程图;
[0023]图3为本申请实施例三提供的一种语言生成模型的评价装置的框图;
[0024]图4为本申请实施例四提供的一种电子设备的框图。
具体实施方式
[0025]为使本领域的技术人员更好地理解本申请的技术方案,以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0026]在不冲突的情况下,本申请各实施例及实施例中的各特征可相互组合。
[0027]如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
[0028]本文所使用的术语仅用于描述特定实施例,且不意欲限制本申请。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由
……
制成”时,指定存在所述特征、整体、步骤、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语言生成模型的评价方法,其特征在于,包括:通过第一模型输出待评价的多个语言生成模型中任意两个语言生成模型之间的模型比较结果,得到多个模型比较结果,并根据所述多个模型比较结果从所述多个语言生成模型中选择出第一语言生成模型以及第二语言生成模型,其中,所述模型比较结果用于表征任意两个语言生成模型的文本生成准确度之间的比较结果;获取目标测试文本,并通过所述第一语言生成模型得到与所述目标测试文本相对应的第一待测文本,以及通过所述第二语言生成模型得到与所述目标测试文本相对应的第二待测文本;将所述目标测试文本、第一待测文本以及第二待测文本拼接为输入数据,将所述输入数据输入第二模型,根据第二模型的输出结果得到本次评价过程中针对所述第一语言生成模型以及第二语言生成模型的模型评价结果,所述模型评价结果用于表征所述第一语言生成模型生成的第一待测文本和所述第二语言生成模型生成的第二待测文本之间的准确度比较结果;根据所述模型评价结果对所述第一模型进行更新;根据更新后的第一模型输出的与所述多个语言生成模型相对应的模型比较结果,对所述多个语言生成模型进行评价。2.根据权利要求1所述的方法,其特征在于,所述根据所述各个语言生成模型的模型比较结果从所述多个语言生成模型中选择出第一语言生成模型以及第二语言生成模型,包括:获取与每两个语言生成模型之间的模型比较结果相对应的位次概率参数;其中,每两个语言生成模型之间的模型比较结果相对应的位次概率参数用于表征在对应的两个语言生成模型通过指定位次排列的情况下,第一位次的语言生成模型的文本生成准确度高于第二位次的语言生成模型的文本生成准确度的概率;将概率最大的比较结果所对应两个语言生成模型作为所述第一语言生成模型以及第二语言生成模型;其中,所述第一语言生成模型为第一位次,所述第二语言生成模型为第二位次。3.根据权利要求2所述的方法,其特征在于,所述根据第二模型的输出结果得到本次评价过程中针对所述第一语言生成模型以及第二语言生成模型的模型评价结果,包括:分别通过多种不同的输入方式,将所述输入数据输入所述第二模型,获取所述第二模型对应于所述多种不同的输入方式输出的多个评价值;其中,每个评价值用于表征第一语言生成模型的文本生成准确度优于第二语言生成模型的文本生成准确度的概率;计算所述多个评价值的离散度指标;若所述离散度指标大于预设离散阈值,获取针对所述输入数据触发的辅助标注结果;根据所述辅助标注结果,确定对应于所述输入数据的真实评价结果;根据所述真实评价结果对所述第二模型的输出结果进行修正,将修正后的结果作为本次评价过程中针对所述第一语言生成模型以及第二语言生成模型的模型评价结果;并且,根据所述真实评价结果对所述第二模型进行更新操作。4.根据权利要求3所述的方法,其特征在于,所述分别通过多种不同的输入方式,将所述输入数据输入所述第二模型,包括:
在每一种输入方式中,通过预设采样方式随机失活所述第二模型中的部分网络节点,将所述输入数据输入随机失活部分网络节点后的第二模型中;其中,不同输入方式中随机失活的网络节点的节点种类和数量各不相同;其中,所述预设采样方式包括:蒙特卡罗采样方式。5.根据权利要求2

4任一所述的方法,其特征在于,所述根据所述模型评价结果对所述第一模型进行更新,包括:根据所述模型评价结果,对所述第一模型中的至少一个模型参数进行更新,以实现对目标模型比较结果相对应的位次概率参数进行更新,所述目标模型比较结果为所述第一模型输出的所述第一语言生成模型和所述第二语言生成模型之间的模型比较结果;其中,对所述第一模型中的至少一个模型参数进行更新的具体方式包括:若所述模型评价结果与所述第一模型输出的所述目标模型比较结果匹配,则使更新后的所述第一模型输出的模型比较结果相对应的位次概率参数的参数值...

【专利技术属性】
技术研发人员:汪自立马超夏粉蒋宁吴海英肖冰
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1