语言生成模型的评价方法、装置、电子设备及存储介质制造方法及图纸

技术编号：37670203 阅读：23 留言：0更新日期：2023-05-26 04:31

本申请提供了一种语言生成模型的评价方法、装置、电子设备及存储介质，该方法包括：通过第一模型输出多个语言生成模型的模型比较结果，据此从多个语言生成模型中选择出两个语言生成模型；获取目标测试文本，分别通过两个语言生成模型得到与目标测试文本对应的两个待测文本；将目标测试文本和两个待测文本拼接为输入数据并输入第二模型，根据输出结果得到模型评价结果；根据模型评价结果对第一模型进行更新；根据更新后第一模型输出的模型比较结果，对多个语言生成模型进行评价。该方法通过第一模型对多个语言生成模型进行比较，通过第二模型评价第一模型的比较结果，从而不断更新第一模型以提高准确性，得到更可靠的自然语言生成模型评价结果。生成模型评价结果。生成模型评价结果。

全部详细技术资料下载

【技术实现步骤摘要】
语言生成模型的评价方法、装置、电子设备及存储介质

[0001]本申请涉及自然语言处理领域，特别涉及一种语言生成模型的评价方法、装置、电子设备及存储介质。

技术介绍

[0002]自然语言生成(Natural Language Generation，NLG)技术，是指利用人工智能和语言学的方法自动生成可理解的自然语言文本。随着将超大规模数据作为样本进行大型语言模型的训练，自然语言生成技术有了飞速的发展，被应用于文案生成、诗词生成等领域。早期自然语言生成更倾向自动化的评价指标，这种指标易于计算但并不可靠。因此在现实应用场景下，多采用更为可靠的人工评估方式来进行自然语言生成技术评估，然而这种方式也存在高成本、存在注释者偏差、高方差和序列效应(当前评价受前面项目的影响)等问题。为解决这类问题，在相关技术中多采用对比方式来评价多个不同的自然语言生成模型，但需要对待评价的目标文本进行大量人工标注，依然存在人工成本较高和可靠性较低的问题。

技术实现思路

[0003]本申请提供一种语言生成模型的评价方法、装置、电子设备及存储介质，本申请实现了通过第一模型对多个语言生成模型进行比较，通过第二模型评价第一模型的比较结果，从而不断更新第一模型以提高准确性，得到更可靠的自然语言生成模型评价结果。。
[0004]第一方面，本申请提供了一种语言生成模型的评价方法，包括以下步骤：
[0005]通过第一模型输出待评价的多个语言生成模型中任意两个语言生成模型之间的模型比较结果，得到多个模型比较结果，并根据多个模型比较结果...

【技术保护点】

【技术特征摘要】
1.一种语言生成模型的评价方法，其特征在于，包括：通过第一模型输出待评价的多个语言生成模型中任意两个语言生成模型之间的模型比较结果，得到多个模型比较结果，并根据所述多个模型比较结果从所述多个语言生成模型中选择出第一语言生成模型以及第二语言生成模型，其中，所述模型比较结果用于表征任意两个语言生成模型的文本生成准确度之间的比较结果；获取目标测试文本，并通过所述第一语言生成模型得到与所述目标测试文本相对应的第一待测文本，以及通过所述第二语言生成模型得到与所述目标测试文本相对应的第二待测文本；将所述目标测试文本、第一待测文本以及第二待测文本拼接为输入数据，将所述输入数据输入第二模型，根据第二模型的输出结果得到本次评价过程中针对所述第一语言生成模型以及第二语言生成模型的模型评价结果，所述模型评价结果用于表征所述第一语言生成模型生成的第一待测文本和所述第二语言生成模型生成的第二待测文本之间的准确度比较结果；根据所述模型评价结果对所述第一模型进行更新；根据更新后的第一模型输出的与所述多个语言生成模型相对应的模型比较结果，对所述多个语言生成模型进行评价。2.根据权利要求1所述的方法，其特征在于，所述根据所述各个语言生成模型的模型比较结果从所述多个语言生成模型中选择出第一语言生成模型以及第二语言生成模型，包括：获取与每两个语言生成模型之间的模型比较结果相对应的位次概率参数；其中，每两个语言生成模型之间的模型比较结果相对应的位次概率参数用于表征在对应的两个语言生成模型通过指定位次排列的情况下，第一位次的语言生成模型的文本生成准确度高于第二位次的语言生成模型的文本生成准确度的概率；将概率最大的比较结果所对应两个语言生成模型作为所述第一语言生成模型以及第二语言生成模型；其中，所述第一语言生成模型为第一位次，所述第二语言生成模型为第二位次。3.根据权利要求2所述的方法，其特征在于，所述根据第二模型的输出结果得到本次评价过程中针对所述第一语言生成模型以及第二语言生成模型的模型评价结果，包括：分别通过多种不同的输入方式，将所述输入数据输入所述第二模型，获取所述第二模型对应于所述多种不同的输入方式输出的多个评价值；其中，每个评价值用于表征第一语言生成模型的文本生成准确度优于第二语言生成模型的文本生成准确度的概率；计算所述多个评价值的离散度指标；若所述离散度指标大于预设离散阈值，获取针对所述输入数据触发的辅助标注结果；根据所述辅助标注结果，确定对应于所述输入数据的真实评价结果；根据所述真实评价结果对所述第二模型的输出结果进行修正，将修正后的结果作为本次评价过程中针对所述第一语言生成模型以及第二语言生成模型的模型评价结果；并且，根据所述真实评价结果对所述第二模型进行更新操作。4.根据权利要求3所述的方法，其特征在于，所述分别通过多种不同的输入方式，将所述输入数据输入所述第二模型，包括：
在每一种输入方式中，通过预设采样方式随机失活所述第二模型中的部分网络节点，将所述输入数据输入随机失活部分网络节点后的第二模型中；其中，不同输入方式中随机失活的网络节点的节点种类和数量各不相同；其中，所述预设采样方式包括：蒙特卡罗采样方式。5.根据权利要求2
‑
4任一所述的方法，其特征在于，所述根据所述模型评价结果对所述第一模型进行更新，包括：根据所述模型评价结果，对所述第一模型中的至少一个模型参数进行更新，以实现对目标模型比较结果相对应的位次概率参数进行更新，所述目标模型比较结果为所述第一模型输出的所述第一语言生成模型和所述第二语言生成模型之间的模型比较结果；其中，对所述第一模型中的至少一个模型参数进行更新的具体方式包括：若所述模型评价结果与所述第一模型输出的所述目标模型比较结果匹配，则使更新后的所述第一模型输出的模型比较结果相对应的位次概率参数的参数值...

【专利技术属性】
技术研发人员：汪自立，马超，夏粉，蒋宁，吴海英，肖冰，
申请(专利权)人：马上消费金融股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人