文本评测集的构建方法、构建装置、电子设备及介质制造方法及图纸

技术编号：44737684 阅读：3 留言：0更新日期：2025-03-21 18:04

本公开涉及文本评测集的构建方法、构建装置、电子设备及介质。所述方法可以通过收集原始基础文本信息，基于原始基础文本信息构建混淆文本信息；基于预设规则对所述原始基础文本信息中的公共信息进行修改，得到更新后的基础文本信息；将混淆文本信息随机置入所述更新后的基础文本信息中，得到扩展文本信息；利用大预言模型LLM算法对所述扩展文本信息和更新后的基础文本信息的格式和内容进行确认，当确认结果满足要求时，将所述扩展文本信息添加到所述文本评测集。本公开所述方法及相关设备能够支持256k tokens及以上长度的语言能力测试，提升对大语言模型等算法的长文本处理能力进行衡量的效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，具体涉及一种文本评测集的构建方法、构建装置、电子设备及介质。

技术介绍

1、大语言模型(large language model，llm)的出现极大地影响了深度学习等算法范式，并进一步启发了许多新型的模型应用模式。大语言模型的一个重要能力维度是可处理的序列长度。越大的序列长度可以让模型处理更多的文本、定制更多提示词(prompt)进而实现更好的效果。但处理长度的增加也对模型能力提出了更高的要求——模型必须能在长序列中准确地捕捉期望的信息，同时避免干扰和遗忘。目前主流开源大语言模型的处理能力多为4k或8k tokens(词元)，一些公司或研究机构也发布了16k或32k tokens长度的模型。另一方面，许多商业公司也提供了具备更长序列处理能力的闭源大语言模型调用支持。

2、目前现有的长文本测试方案及测试集构建通常具有以下技术缺点：

3、测试集长度不够：目前最主流的测试集longbench(智谱ai)平均长度约为8ktokens，北京大学的loogle测试集及面壁智能的infinitebench两者进一步将测试长度扩展到20k和100k tokens。与之相比，目前的模型处理能力可能已经达到200k tokens及以上，现有的测试集长度已经不足以覆盖模型能力，无法衡量模型在200k tokens及以上长度的测试集上的性能。

4、存在信息泄露：上面提到的主流测试集在构建时大多都采用了百科全书、公开论文等公共知识库，这些公共知识库中的问题和答案数据基本都会出现在模型的训练集中，进而

5、构造方式简单：目前的测试集采用了注入固定提示词的方法进行测试，例如让模型寻找固定关键词，这种方法很容易让模型能力坍塌到对关键词的粗暴匹配或者过拟合，同时也无法反应出模型在长上下文文本的多个段落中的综合组合推理能力。

技术实现思路

1、本公开克服了现有技术的不足之一，提供了一种文本评测集的构建方法及其相关设备，可以支持更长(例如256k tokens及以上)文本的语言能力测试，通过进行文本信息混淆来避免信息泄露及模式坍塌，使得能够更准确、高效地衡量大语言模型等自然语言处理算法的长文本处理能力。

2、根据本公开的一方面，提出了一种文本评测集的构建方法，其特征在于，所述方法包括：

3、收集原始基础文本信息，基于原始基础文本信息构建混淆文本信息；

4、基于预设规则对所述原始基础文本信息中的公共信息进行修改，得到更新后的基础文本信息；

5、将混淆文本信息随机置入所述更新后的基础文本信息中，得到扩展文本信息；

6、利用大语言模型llm算法对扩展文本信息和更新后的基础文本信息的格式和内容进行确认，当确认结果满足要求时，将所述扩展文本信息添加到所述文本评测集。

7、在一种可能的实现方式中，所述利用大语言模型llm算法对扩展文本信息和更新后的基础文本信息的格式和内容进行确认，当确认结果满足要求时，将所述扩展文本信息添加到所述文本评测集，包括：

8、利用大语言模型llm算法，对所述扩展文本信息和更新后的基础文本信息进行格式统一性和内容对应性的判断，当所述扩展文本信息和更新后的基础文本信息满足格式统一性和内容对应性时，将所述扩展文本信息添加到所述文本评测集。

9、在一种可能的实现方式中，所述基于所述原始基础文本信息构建混淆文本信息，包括：

10、至少修改所述原始基础文本信息中的主语和宾语，并将修改后的文本信息构建为混淆文本信息；和/或

11、利用大语言模型基于提示词对所述原始基础文本信息进行修改，以构建混淆文本信息；

12、其中，混淆文本信息和原始基础文本信息包括相同的元素和不同的元素。

13、在一种可能的实现方式中，所述将所述混淆文本信息随机置入所述更新后的基础文本中，得到扩展文本信息，包括：

14、定义所述更新后的基础文本中的分隔符；

15、利用预定算法随机生成所述更新后的基础文本中的插入位置；

16、将所述混淆文本信息置入所述更新后的基础文本中的插入位置，得到扩展文本信息。

17、在一种可能的实现方式中，所述分隔符包括标点符号和换行符。

18、在一种可能的实现方式中，所述基础文本信息和混淆文本信息包括文本内容，根据文本内容能够设计问题和推理出问题的答案。

19、在一种可能的实现方式中，所述文本内容具有如下形式中的任意一种：短文本以及包含多条短文本的文本包。

20、根据本公开的另一方面，提出了一种文本评测集的构建装置，所述装置包括：

21、构建模块，用于收集原始基础文本信息，基于原始基础文本信息构建混淆文本信息；

22、修改模块，用于基于预设规则对所述原始基础文本信息中的公共信息进行修改，得到更新后的基础文本信息；

23、插入模块，用于将混淆文本信息随机置入所述更新后的基础文本中，得到扩展文本信息；

24、确认模块，用于利用大语言模型llm算法对扩展文本信息和更新后的基础文本信息的格式和内容进行确认，当确认结果满足要求时，将所述扩展文本信息添加到所述文本评测集。

25、根据本公开的另一方面，提出了一种电子设备，所述设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现根据本公开的实施例的文本评测集的构建方法。

26、根据本公开的另一方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现根据本公开的实施例的文本评测集的构建方法。

27、在本公开的文本评测集的构建方法中，收集原始基础文本信息，基于原始基础文本信息构建混淆文本信息；基于预设规则对原始基础文本信息中的公共信息进行修改，得到更新后的基础文本信息；将混淆文本信息随机置入所述更新后的基础文本中，得到扩展文本信息；利用大语言模型llm算法对所述扩展文本信息和更新后的基础文本信息的格式和内容进行确认，当确认结果满足要求时，将所述扩展文本信息添加到所述文本评测集，从而能够支持更长(例如256k tokens及以上)文本的语言能力测试，通过进行文本信息混淆来避免信息泄露及模式坍塌，使得能够更准确、高效地衡量大语言模型等算法的长文本处理能力。

本文档来自技高网...

【技术保护点】

1.一种文本评测集的构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的构建方法，其特征在于，所述利用大语言模型LLM算法对扩展文本信息和更新后的基础文本信息的格式和内容进行确认，当确认结果满足要求时，将所述扩展文本信息添加到所述文本评测集，包括：

3.根据权利要求1所述的构建方法，其特征在于，所述基于原始基础文本信息构建混淆文本信息，包括：

4.根据权利要求1所述的构建方法，其特征在于，所述将混淆文本信息随机置入所述更新后的基础文本中，得到扩展文本信息，包括：

5.根据权利要求4所述的构建方法，其特征在于，所述分隔符包括标点符号和换行符。

6.根据权利要求1所述的构建方法，其特征在于，所述基础文本信息和混淆文本信息包括文本内容，根据文本内容能够设计问题和推理出问题的答案。

7.根据权利要求6所述的构建方法，其特征在于，所述文本内容具有如下形式中的任意一种：短文本以及包含多条短文本的文本包。

8.一种文本评测集的构建装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文本评测集的构建方法。

...

【技术特征摘要】

1.一种文本评测集的构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的构建方法，其特征在于，所述利用大语言模型llm算法对扩展文本信息和更新后的基础文本信息的格式和内容进行确认，当确认结果满足要求时，将所述扩展文本信息添加到所述文本评测集，包括：

3.根据权利要求1所述的构建方法，其特征在于，所述基于原始基础文本信息构建混淆文本信息，包括：

4.根据权利要求1所述的构建方法，其特征在于，所述将混淆文本信息随机置入所述更新后的基础文本中，得到扩展文本信息，包括：

5.根据权利要求4所述的构建方法，其特征在于，所述分隔符包括标点符号和换行符。

6.根据权利要求1所述的构建方法，其特征在于，所述基...

【专利技术属性】
技术研发人员：请求不公布姓名，请求不公布姓名，请求不公布姓名，请求不公布姓名，请求不公布姓名，请求不公布姓名，
申请(专利权)人：北京无问芯穹科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人