System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及语义理解评估,尤其涉及一种基于句子空间的模型语义理解评估方法、装置和介质。
技术介绍
1、文本蕴含识别(natural language inference,nli)是一项经典的自然语言处理任务,该任务要求判断两个句子之间的逻辑蕴含关系,即判断根据给定的前提句能否推导得到给定的假设句。文本蕴含识别体现了语言的理解和推理能力,是包括信息检索、信息抽取在内的很多自然语言理解任务的基础,也是模型能力测试的重要指标。
2、传统的文本蕴含识别模型评估方法是基准数据集上的正确率测试。现有的基于transformer的大语言模型已经能够在文本蕴含识别基准数据集中取得非常高的、甚至超过人类的答题正确率。然而,模型在实际应用中仍然存在泛化能力差、在对抗攻击中表现不稳定等问题。以上现象反映了传统的模型评估方法的不足。研究表明,现有的基准数据集,如斯坦福自然语言推断数据集(the stanford natural language inference,snli)和多类型自然语言推理数据库(the multi-genre natural language inference corpus,mnli)存在统计偏差。模型能够利用简单的规律取得较高的正确率,导致模型的能力被高估。具体而言,基准数据集通过人工收集构建,人工根据给定的前提句和一个标签(即蕴含、无关或对立),写出符合要求的假设句,其中标签代表两个句子之间的蕴含关系。在编写的过程中可能引入一些简单的规律,比如,研究发现snli数据集中,假设句出现带有否定含义的副词(如“no
3、为了打破模型学到的简单规律,研究中提出使用更具有挑战性的数据集来测试模型。
4、部分研究中通过人工对抗性地改写原有样本,写出让模型难以回答正确的样本。得到的数据集在模型的测试和训练中都具备很高的价值,然而这种方式耗费人力,并且随着模型能力的提升对抗过程变得困难。
5、部分研究中编写模板,来批量生成具有挑战性的样本,如通过对原有样本进行句型改写、同义词反义词替换,来生成挑战性样本。该方式测试了特定的语言能力,并且只需要部分人工参与。然而,模板的编写需要专业知识,并且生成的样本具有单一性,难以用于模型优化。
6、部分研究中通过对抗攻击,对原有样本进行轻微扰动,来生成能够误导模型的对抗样本,如通过往原有样本中增加错别字使模型的正确率大幅下降。对抗攻击能够揭露模型学到的简单规则,为挑战性样本生成提供了一种无需人力的方案。然而,对抗样本仍然局限于输入的细微扰动,仅能测试模型在某项扰动下输出的稳定性,与语言的理解不直接相关。
7、其他研究中还通过模型可解释性方法来评估模型,如通过比较人和模型在各个选项上的选择倾向分布的差异、对关键字关键句选择的差异等来评估模型。然而,该方法往往需要收集更多数据,以进行行为对比。
8、除此之外,在现有的模型评估方法中,一个假设句往往仅与一句前提句对应。在这种情况下,句子的语义仅通过它和某个其他句子的关系体现,因此语义的测试是不全面的。在人类语言中,句子之间的组合是无穷的,一个句子的语义体现在它和其他大量句子的组合关系中。
9、本专利技术旨在解决现有模型评估方法中存在的一些问题,例如需要大量人力编写、基准数据集存在统计偏差缺乏挑战性等问题。本专利技术提供了一种新的模型评估方法,利用句子之间的两两关系,从句子语义空间的角度评估模型。相较于现有技术,本专利技术不仅无需大量人力编写,而且能够通过两两组合打破数据集中存在的简单规律,从而更全面地测试模型的语言理解能力。
技术实现思路
1、本专利技术的目的在于针对现有技术的不足,提供一种基于句子空间的模型语义理解评估方法、装置和介质。本专利技术无需大量人力编写,能够通过两两组合打破数据集中存在的简单规律,从而更全面地测试模型的语言理解能力。
2、本专利技术的目的是通过以下技术方案来实现的:本专利技术实施例第一方面提供了一种基于句子空间的模型语义理解评估方法,包括以下步骤:
3、(1)采集能够按照语义进行分类的语句集合;
4、(2)收集系统对语句集合s中所有句子两两之间的蕴含关系进行打分,获取蕴含得分矩阵;根据蕴含得分矩阵构建句子距离矩阵,形成句子语义空间;其中,所述收集系统包括人工和模型;
5、(3)使用可视化方法定性观察模型的句子语义空间,获取模型的句子语义空间图;
6、(4)使用句子语义空间评估器根据评估指标定量评价模型的句子语义空间性质;其中,所述评估指标包括空间稀疏度、语义相关句子聚类效果以及与人类空间的相似性。
7、进一步地,所述步骤(1)包括以下子步骤:
8、(1.1)从已有基准数据集中采样得到语义不重复的多句前提句;
9、(1.2)根据前提句编写得到与其具有蕴含关系的假设句,所述假设句包括同义句和可推断句,所述同义句为与前提句能够相互推导得到、具有相等语义信息的假设句,所述可推断句为能够被前提句推导得到但是不能推导得到前提句、仅具有前提句的部分语义信息的假设句;
10、(1.3)对收集到的前提句和假设句进行筛选,剔除其中含有少于三个实词的句子和重复的句子,最终得到语句集合。
11、进一步地,所述步骤(2)包括以下子步骤:
12、(2.1)将语句集合s中所有句子进行两两组合,得到前提句-假设句形式的句子对(si,sj),si∈s,sj∈s,其中si表示语句集合s中第i个句子,sj表示语句集合s中第j个句子;
13、(2.2)收集系统f根据预定义的打分方法对每个句子对(si,sj)的蕴含关系程度进行打分,获得该句子对(si,sj)的蕴含得分r(i,j),以获取蕴含得分矩阵r;
14、(2.3)采用语义相关距离和语义落差距离将不对称的蕴含得分矩阵r变换为对称的语义相关距离矩阵drel和语义落差距离矩阵ddis,语义相关距离矩阵drel和语义落差距离矩阵ddis统称为距离矩阵d。
15、进一步地,所述打分方法具体包括:
16、①对于能够直接输出蕴含关系程度打分的收集系统,使用其选择蕴含关系的置信度作为该句子对(si,sj)的蕴含得分;
17、②对于无法明确定义蕴含关系程度的收集系统,使用四选一的单选任务测试,测试收集系统选择每个选项的倾向,并将选项映射到数值的分数,作为该句子对(si,sj)的蕴含得分。
18、进一步地,所述语义相关距离矩阵drel表示两个句子之间相互蕴含的程度,其表达式为:
19、
20、其中,drel(i,j)表示句子si和句子sj在句子语义空间中的语义相关距离,r(i,j)表示句子对(si,sj)的蕴含得分,r(j,i)表示句子对(sj,si)的蕴含得分;
21、所述语义落差距离矩阵ddis表示两个本文档来自技高网...
【技术保护点】
1.一种基于句子空间的模型语义理解评估方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于句子空间的模型语义理解评估方法,其特征在于,所述步骤(1)包括以下子步骤:
3.根据权利要求1所述的基于句子空间的模型语义理解评估方法,其特征在于,所述步骤(2)包括以下子步骤:
4.根据权利要求3所述的基于句子空间的模型语义理解评估方法,其特征在于,所述打分方法具体包括:
5.根据权利要求3所述的基于句子空间的模型语义理解评估方法,其特征在于,所述语义相关距离矩阵Drel表示两个句子之间相互蕴含的程度,其表达式为:
6.根据权利要求1所述的基于句子空间的模型语义理解评估方法,其特征在于,所述步骤(3)包括以下子步骤:
7.根据权利要求1所述的基于句子空间的模型语义理解评估方法,其特征在于,所述步骤(4)包括以下子步骤:
8.一种基于句子空间的语义理解评估装置,其特征在于,包括一个或多个处理器和存储器,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现
9.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,用于实现权利要求1-7中任一项所述的基于句子空间的模型语义理解评估方法。
...【技术特征摘要】
1.一种基于句子空间的模型语义理解评估方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于句子空间的模型语义理解评估方法,其特征在于,所述步骤(1)包括以下子步骤:
3.根据权利要求1所述的基于句子空间的模型语义理解评估方法,其特征在于,所述步骤(2)包括以下子步骤:
4.根据权利要求3所述的基于句子空间的模型语义理解评估方法,其特征在于,所述打分方法具体包括:
5.根据权利要求3所述的基于句子空间的模型语义理解评估方法,其特征在于,所述语义相关距离矩阵drel表示两个句子之间相互蕴含的程度,其表达式为:
6.根据权利要求1所述的基于句...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。