System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 大语言模型不完全信息下的问题处理能力的评测装置制造方法及图纸_技高网
当前位置: 首页 > 专利查询>复旦大学专利>正文

大语言模型不完全信息下的问题处理能力的评测装置制造方法及图纸

技术编号:42869772 阅读:1 留言:0更新日期:2024-09-27 17:30
本发明专利技术提供了一种大语言模型不完全信息下的问题处理能力的评测装置,具有这样的特征,包括评测实体生成模块用于根据现有的实体猜测数据,生成层次概念列表和相似实体;简单难度猜测模块用于根据实体及其对应的底层概念,得到对应的简单难度猜测结果和简单难度猜测轮数;普通难度猜测模块用于根据实体及其对应的中间层概念,得到对应的普通难度猜测结果和普通难度猜测轮数;困难难度猜测模块用于根据实体及其对应的底层概念和相似实体,得到对应的困难难度猜测结果、困难难度猜测轮数和问答记录;分析计算模块用于计算得到不完全信息下的问题处理能力结果。总之,本装置能够客观准确地评估大语言模型多个方面的不完全信息下的问题处理能力。

【技术实现步骤摘要】

本专利技术涉及问题处理评测领域,具体涉及一种大语言模型不完全信息下的问题处理能力的评测装置


技术介绍

1、不完全信息场景包括信息缺失、不确定性和错误信息,这些在商业谈判、军事战略、医学诊断和法律判决等领域中都可能遇到。在不完全信息下的解决问题能力是指在缺乏全面数据的情况下,能够有效处理现有信息、做出合理推论和决策的能力。这种能力在现实生活中至关重要,因为我们不可能拥有所有决策所需的信息。

2、这种能力对于大型语言模型即llms也很重要,这不仅能够反映llms的逻辑推理能力,还涉及在不断变化的环境中调整策略,从而显著提升它们在各个领域中的决策质量和稳健性。因此,一个自然的问题是:llms是否具备在不完全信息场景下的解决问题能力?

3、之前关于不完全信息场景下解决问题能力的研究,主要集中在通过游戏模拟复杂的决策环境,如狼人杀、扑克和阿瓦隆等。这些游戏要求玩家在没有完整信息的情况下做出决策,通常涉及欺骗和战略规划以隐瞒真实身份。谁是卧底是另一种不完全信息游戏,要求玩家根据他人的描述推断自己是否是间谍。在这个运行示例中,持有“面包”的玩家是间谍,他需要通过扭曲事实来描述自己,如它通常需要更多的糖、脂肪和鸡蛋”,以避免被抓住。然而,即使是像gpt-3和gpt-3.5这样的先进llms,在一般自然语言处理任务中表现出色,在不完全信息环境下的有效决策仍然存在局限性。

4、信息处理是解决不完全信息场景下问题的关键能力,例如扫雷游、二十个问题游戏等。二十个问题游戏要求玩家提出一系列是非问题来猜测给定的实体,这可以有效评估llms的创造力、知识检索、多跳推理能力。然而,上述游戏,如二十个问题,并不能充分评估llms在信息处理和解决问题方面的能力,因为它缺乏需要识别误导性线索并根据有限或虚假信息制定适应性策略的欺骗和战略复杂性。而且,像“狼人杀”和“谁是卧底”这样的游戏高度主观,使得有效评估llms在不完全信息场景下的能力变得具有挑战性。

5、总之,现有的评估方法均无法客观准确地评估大语言模型在不完全信息下的问题处理能力。


技术实现思路

1、本专利技术是为了解决上述问题而进行的,目的在于提供一种大语言模型不完全信息下的问题处理能力的评测装置。

2、本专利技术提供了一种大语言模型不完全信息下的问题处理能力的评测装置,用于得到待评估大语言模型的不完全信息下的问题处理能力结果,具有这样的特征,包括:评测实体生成模块,用于根据现有的实体猜测数据,生成多个实体及其对应的层次概念列表和相似实体,层次概念列表包括底层概念和中间层概念;简单难度猜测模块,用于根据实体及其对应的底层概念,使待评估大语言模型进行简单难度实体猜测,得到对应的简单难度猜测结果和简单难度猜测轮数;普通难度猜测模块,用于根据实体及其对应的中间层概念,使待评估大语言模型进行普通难度实体猜测,得到对应的普通难度猜测结果和普通难度猜测轮数;困难难度猜测模块,用于根据实体及其对应的底层概念和相似实体,使待评估大语言模型进行困难难度实体猜测,得到对应的困难难度猜测结果、困难难度猜测轮数和问答记录;分析计算模块,用于根据所有简单难度猜测结果、简单难度猜测轮数、普通难度猜测结果、普通难度猜测轮数、困难难度猜测结果、困难难度猜测轮数和问答记录,计算得到不完全信息下的问题处理能力结果。

3、在本专利技术提供的大语言模型不完全信息下的问题处理能力的评测装置中,还可以具有这样的特征:其中,分析计算模块包括:简单难度分析单元,用于根据多个简单难度猜测结果和简单难度猜测轮数,得到简单难度准确性胜率、简单难度轮数胜率和简单难度总胜率;普通难度分析单元,用于根据多个普通难度猜测结果和普通难度猜测轮数,得到普通难度准确性胜率、普通难度轮数胜率和普通难度总胜率;困难难度分析单元,用于根据多个困难难度猜测结果、困难难度猜测轮数和问答记录,得到困难难度准确性胜率、困难难度轮数胜率、困难难度总胜率和推理分数,不完全信息下的问题处理能力结果包括简单难度准确性胜率、简单难度轮数胜率、简单难度总胜率、普通难度准确性胜率、普通难度轮数胜率、普通难度总胜率、困难难度准确性胜率、困难难度轮数胜率、困难难度总胜率和推理分数。

4、在本专利技术提供的大语言模型不完全信息下的问题处理能力的评测装置中,还可以具有这样的特征:其中,在简单难度猜测模块中,简单难度实体猜测为“20个问题”游戏,“20个问题”游戏的起点为底层概念,待评估大语言模型在“20个问题”游戏中猜测成功时,简单难度猜测结果为1,待评估大语言模型在“20个问题”游戏中猜测失败时,简单难度猜测结果为0,简单难度猜测轮数为待评估大语言模型在“20个问题”游戏中总共经历的问答轮次数。

5、在本专利技术提供的大语言模型不完全信息下的问题处理能力的评测装置中,还可以具有这样的特征:其中,在简单难度分析单元中,简单难度总胜率为简单难度准确性胜率和简单难度轮数胜率的平均值,简单难度准确性胜率为所有单次简单难度准确性胜率的平均值,单次简单难度准确性胜率为简单难度猜测结果与100的乘积,简单难度轮数胜率为所有单次简单难度轮数胜率的平均值,单次简单难度轮数胜率为简单难度猜测轮数的倒数与100的乘积。

6、在本专利技术提供的大语言模型不完全信息下的问题处理能力的评测装置中,还可以具有这样的特征:其中,在普通难度猜测模块中,普通难度实体猜测为“20个问题”游戏,“20个问题”游戏的起点为中间层概念,待评估大语言模型在“20个问题”游戏中猜测成功时,普通难度猜测结果为1,待评估大语言模型在“20个问题”游戏中猜测失败时,普通难度猜测结果为0,普通难度猜测轮数为待评估大语言模型在“20个问题”游戏中总共经历的问答轮次数。

7、在本专利技术提供的大语言模型不完全信息下的问题处理能力的评测装置中,还可以具有这样的特征:其中,在普通难度分析单元中,普通难度总胜率为普通难度准确性胜率和普通难度轮数胜率的平均值,普通难度准确性胜率为所有单次普通难度准确性胜率的平均值,单次普通难度准确性胜率为普通难度猜测结果与100的乘积,普通难度轮数胜率为所有单次普通难度轮数胜率的平均值,单次普通难度轮数胜率为普通难度猜测轮数的倒数与100的乘积。

8、在本专利技术提供的大语言模型不完全信息下的问题处理能力的评测装置中,还可以具有这样的特征:其中,在困难难度猜测模块中,困难难度实体猜测为“20个问题”游戏,“20个问题”游戏的起点为底层概念,待评估大语言模型在“20个问题”游戏中猜测成功时,困难难度猜测结果为1,待评估大语言模型在“20个问题”游戏中猜测失败时,困难难度猜测结果为0,困难难度猜测轮数为待评估大语言模型在“20个问题”游戏中总共经历的问答轮次数,问答记录为待评估大语言模型在“20个问题”游戏中生成的所有猜测问题。

9、在本专利技术提供的大语言模型不完全信息下的问题处理能力的评测装置中,还可以具有这样的特征:其中,在困难难度分析单元中,困难难度总胜率为困难难度准确性胜率和困难难度轮数胜率的平均值,困难难度准本文档来自技高网...

【技术保护点】

1.一种大语言模型不完全信息下的问题处理能力的评测装置,用于得到待评估大语言模型的智力水平结果,其特征在于,包括:

2.根据权利要求1所述的大语言模型不完全信息下的问题处理能力的评测装置,其特征在于:

3.根据权利要求2所述的大语言模型不完全信息下的问题处理能力的评测装置,其特征在于:

4.根据权利要求3所述的大语言模型不完全信息下的问题处理能力的评测装置,其特征在于:

5.根据权利要求2所述的大语言模型不完全信息下的问题处理能力的评测装置,其特征在于:

6.根据权利要求5所述的大语言模型不完全信息下的问题处理能力的评测装置,其特征在于:

7.根据权利要求2所述的大语言模型不完全信息下的问题处理能力的评测装置,其特征在于:

8.根据权利要求7所述的大语言模型不完全信息下的问题处理能力的评测装置,其特征在于:

9.根据权利要求8所述的大语言模型不完全信息下的问题处理能力的评测装置,其特征在于:

10.根据权利要求1所述的大语言模型不完全信息下的问题处理能力的评测装置,其特征在于:

...

【技术特征摘要】

1.一种大语言模型不完全信息下的问题处理能力的评测装置,用于得到待评估大语言模型的智力水平结果,其特征在于,包括:

2.根据权利要求1所述的大语言模型不完全信息下的问题处理能力的评测装置,其特征在于:

3.根据权利要求2所述的大语言模型不完全信息下的问题处理能力的评测装置,其特征在于:

4.根据权利要求3所述的大语言模型不完全信息下的问题处理能力的评测装置,其特征在于:

5.根据权利要求2所述的大语言模型不完全信息下的问题处理能力的评测装置,其特征...

【专利技术属性】
技术研发人员:陈昱妍李玥泽梁家卿肖仰华
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1