System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机,尤其涉及一种基于信息熵的知识冲突识别方法、装置和电子设备。
技术介绍
1、大语言模型可广泛应用于自然语言理解、生成、推理、问答等诸多任务,在多个应用场景中展现出了巨大的潜力。但是,随着数据和参数规模的增长,模型的参数化知识的局限性越来越明显,因此大语言模型在推理过程中会融合外部的上下文知识,但是,当外部的上下文知识中准确地包含与问题相关的事实知识,却与模型的参数化知识不一致(冲突)时,就产生了知识冲突。
2、目前,针对知识冲突的问题,大语言模型的解码策略都依赖于一个基本假设:当前实验设置中的数据均发生了知识冲突。然而,现实中,并不是所有的场景都存在知识冲突,所以,存在知识冲突的假设无法满足现实场景的要求,导致大语言模型的预测性能下降。
技术实现思路
1、为了解决现有技术中存在的问题,本专利技术提供了如下技术方案。
2、本专利技术第一方面提供了一种基于信息熵的知识冲突识别方法,包括:
3、将问题输入至大语言模型中,输出第一答案并得到第一输出分布,所述第一输出分布为只包含参数化知识的输出分布;
4、将问题和与问题相关的上下文知识均输入至大语言模型中,输出第二答案并得到第二输出分布,所述第二输出分布为包含参数化知识和上下文知识的输出分布;
5、利用第一输出分布计算第一答案的第一信息熵;利用第二输出分布计算第二答案的第二信息熵;
6、判断第一信息熵与第二信息熵是否满足约束条件,如果满足约束条件,则
7、优选地,所述约束条件为:
8、;
9、;
10、;
11、其中,为第二信息熵,为第二答案,为第一信息熵,为第一答案,为常数,为问题,为与问题相关的上下文知识,为第一输出分布,为第二输出分布。
12、优选地,所述第一答案和第二答案均为token级别。
13、优选地,本专利技术提供的基于信息熵的知识冲突识别方法,还包括步骤:对上下文知识进行标记,以区分上下文知识与参数化知识之间是否存在知识冲突。
14、本专利技术第二方面提供了一种基于第一方面所述的知识冲突识别方法的解码方法,包括:
15、利用如第一方面所述的知识冲突识别方法判断参数化知识和上下文知识之间是否存在知识冲突,
16、如果存在知识冲突,则模型通过强化上下文知识进行解码;
17、如果不存在知识冲突,则模型依赖参数化知识进行解码。
18、本专利技术第三方面提供了一种基于信息熵的知识冲突识别装置,包括:
19、第一推理模块,用于将问题输入至大语言模型中,输出第一答案并得到第一输出分布,所述第一输出分布为只包含参数化知识的输出分布;
20、第二推理模块,用于将问题和与问题相关的上下文知识均输入至大语言模型中,输出第二答案并得到第二输出分布,所述第二输出分布为包含参数化知识和上下文知识的输出分布;
21、信息熵计算模块,用于利用第一输出分布计算第一答案的第一信息熵;利用第二输出分布计算第二答案的第二信息熵;
22、知识冲突判断模块,用于判断第一信息熵与第二信息熵是否满足约束条件,如果满足约束条件,则参数化知识和上下文知识之间不存在知识冲突;否则,参数化知识和上下文知识之间存在知识冲突。
23、优选地,在基于信息熵的知识冲突识别装置中,所述约束条件为:
24、;
25、;
26、;
27、其中,为第二信息熵,为第二答案,为第一信息熵,为第一答案,为常数,为问题,为与问题相关的上下文知识,为第一输出分布,为第二输出分布。
28、优选地,在基于信息熵的知识冲突识别装置中,所述第一答案和第二答案均为token级别。
29、本专利技术第四方面提供了一种存储器,存储有多条指令,所述指令用于实现如第一方面所述的基于信息熵的知识冲突识别方法,以及如第二方面所述的解码方法。
30、本专利技术第五方面提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如第一方面所述的基于信息熵的知识冲突识别方法,以及如第二方面所述的解码方法。
31、本专利技术的有益效果是:本专利技术提供的一种基于信息熵的知识冲突识别方法、装置和电子设备,通过利用第一输出分布计算第一答案的第一信息熵,以及利用第二输出分布计算第二答案的第二信息熵;判断第一信息熵与第二信息熵是否满足约束条件,来判断参数化知识和上下文知识之间是否存在知识冲突,使得大语言模型在解码之前能够对知识冲突进行精确地识别,进而有针对性地对存在知识冲突的情况进行缓解,避免了现有技术中对所有情况都进行知识冲突缓解,导致在没有知识冲突的情况下造成的性能降低的问题。
本文档来自技高网...【技术保护点】
1.一种基于信息熵的知识冲突识别方法,其特征在于,包括:
2.如权利要求1所述的基于信息熵的知识冲突识别方法,其特征在于,所述约束条件为:
3.如权利要求1所述的基于信息熵的知识冲突识别方法,其特征在于,所述第一答案和第二答案均为token级别。
4.如权利要求1所述的基于信息熵的知识冲突识别方法,其特征在于,还包括步骤:对上下文知识进行标记,以区分上下文知识与参数化知识之间是否存在知识冲突。
5.一种基于权利要求1-4任一项所述的知识冲突识别方法的解码方法,其特征在于,包括:
6.一种基于信息熵的知识冲突识别装置,其特征在于,包括:
7.如权利要求6所述的基于信息熵的知识冲突识别装置,其特征在于,所述约束条件为:
8.如权利要求6所述的基于信息熵的知识冲突识别装置,其特征在于,所述第一答案和第二答案均为token级别。
9.一种存储器,其特征在于,存储有多条指令,所述指令用于实现如权利要求1-4任一项所述的基于信息熵的知识冲突识别方法,以及如权利要求5所述的解码方法。
1
...【技术特征摘要】
1.一种基于信息熵的知识冲突识别方法,其特征在于,包括:
2.如权利要求1所述的基于信息熵的知识冲突识别方法,其特征在于,所述约束条件为:
3.如权利要求1所述的基于信息熵的知识冲突识别方法,其特征在于,所述第一答案和第二答案均为token级别。
4.如权利要求1所述的基于信息熵的知识冲突识别方法,其特征在于,还包括步骤:对上下文知识进行标记,以区分上下文知识与参数化知识之间是否存在知识冲突。
5.一种基于权利要求1-4任一项所述的知识冲突识别方法的解码方法,其特征在于,包括:
6.一种基于信息熵的知识冲突识别装置,其特征在于,包括:
7....
【专利技术属性】
技术研发人员:王业全,袁晓薇,刘康,方雪至,赵军,
申请(专利权)人:北京智源人工智能研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。