System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请实施例涉及人工智能领域,特别涉及一种基于解码概率纠正的大语言模型对齐方法及装置。
技术介绍
1、近年来,预训练的大语言模型(llm)已在多个领域展示了其强大的能力。这些模型通过大规模语料库学习了丰富的知识,成为在线服务和应用程序的重要组成部分,广泛应用于医疗、金融和法律等关键领域。然而,随着其应用的广泛性,安全性和鲁棒性的问题日益突出,特别是对抗性攻击的增多使得模型生成有害内容,引发了社会和伦理风险的关注。
2、预训练的llm可能反映其训练数据中的偏见,并在某些情况下传播歧视性内容,尤其是在输入含有对抗性提示时。这促使研究者们探索多种对齐方法,如基于人类反馈的强化学习、基于人工智能反馈的强化学习和直接偏好优化等,以提高生成内容的安全性和合规性。然而,这些方法在实施上存在显著挑战,包括高质量数据标注的高人力成本,以及训练过程中所需的巨大时间和计算资源。此外,尽管经过对齐的模型在一定程度上增强了抵御对抗攻击的能力,但仍可能被巧妙设计的攻击绕过。
3、此外在训练过程中,模型的不稳定性和对工程知识的依赖,使得在不改变模型参数的情况下进行对齐显得尤为重要。为此,有技术人员提出了一些轻量级的对齐方法,无需重新训练模型。比如,通过重写检测到的对抗性输入来减轻攻击效果,另一些方法则依靠上下文示例来指导生成过程。然而,这些方法往往依赖于对攻击的准确识别,且难以应对更复杂和隐蔽的攻击。
4、其他技术如基于困惑度的异常检测和动态约束生成等,虽然在某种程度上提升了安全性,但在面对复杂攻击时仍显得力不从心。虽然现
技术实现思路
1、本申请实施例提供了一种基于解码概率纠正的大语言模型对齐方法及装置,以解决大语言模型对齐过程中存在的应对复杂对抗性攻击时缺乏实时干预能力的问题。
2、一方面,提供了一种基于解码概率纠正的大语言模型对齐方法,所述方法包括:
3、生成训练集,所述训练集根据给定问题的可能续写构成而成;
4、通过大语言模型根据所述训练集训练得到概率纠正模型;
5、在所述大语言模型的文本生成过程中,使用训练好的概率纠正模型调整下一个文本基本单元的生成概率,所述文本基本单元为生成文本的基本单元;
6、通过鉴别器对所述生成文本进行评估;
7、响应于所述生成文本不符合对齐标准,在所述大语言模型中通过引入回溯机制对所述生成文本的文本基本单元进行回溯与调整。
8、可选的,所述生成训练集,所述训练集根据给定问题的可能续写构成而成,包括:
9、根据历史数据集构建有害性样本和有用性样本,所述有害性样本和所述有用性样本分别包含对应的给定问题;
10、为各个有害性样本和有用性样本随机生成不同的前缀,所述前缀作为对应给定问题的可能续写;
11、将各个有害性样本和各个有用性样本对应的给定问题和对应生成的前缀进行连接,生成各个有害性样本和各个有用性样本对应的初始文本;
12、通过所述大语言模型生成所述初始文本对应的变体文本;
13、通过奖励模型对有害性样本对应的各个变体文本的有用性进行评分;
14、通过内容安全分类模型对有害性样本对应的各个变体样本的有害性进行评分;
15、将有用性评分和有害性评分进行归一化与加权处理得到每个给定问题与对应前缀的纠正概率作为所述训练集。
16、可选的,所述通过所述训练集训练得到概率纠正模型,包括:
17、根据所述训练集将所述大语言模型的输入形式表达为其中,prefix表示生成的前缀,tk为下一个候选的文本基本单元,<s>用于聚合整个输入序列的信息,所述大语言模型用于通过处理输入,提取出<s>标记的特征向量其中dm表示特征维度。
18、通过一个多层感知机对所述特征向量hcls向量进行处理,并使用sigmoid函数将输出映射为[0,1]区间的概率值:其中,为模型输出的质量概率,σ(x)为sigmoid函数;
19、采用均方误差作为损失函数训练得到所述概率纠正模型,所述均方误差用于优化所述概率纠正模型预测结果,其中,所述损失函数lmse为:
20、
21、可选的,所述在所述大语言模型的文本生成过程中,使用训练好的概率纠正模型调整下一个文本基本单元的生成概率,包括:
22、使用训练好的概率纠正模型调整下一个文本基本单元的生成概率,降低不符合人类偏好的token的生成概率,同时提升符合人类偏好的token概率,其中token表示为文本基本单元;
23、在给定前缀prefix的条件下,假定所述大语言模型生成下一个候选token的原始概率为pllm(t|prefix),pcm(t|prefix)表示所述概率纠正模型评估该token是否符合人类偏好的概率;
24、通过加权融合输出纠正后的生成概率为:
25、
26、其中,llm指代所述大语言模型,cm指代所述概率纠正模型,α和β是控制所述大语言模型与所述概率纠正模型相对贡献的超参数,并满足α+β=1;
27、引入归一化常数对纠正后的生成概率做归一化处理,最终调整得到下一个文本基本单元的生成概率。
28、可选的,在时间步t时,所述大语言模型生成了的token序列表示为xt={t0,t1,…,tt-1},且所述大语言模型用于从候选token集合tt={tt1,tt2,,ttn}中生成新的tokentt,所述候选token集合中的每个候选token的生成概率表达为h(tti|xt),所述h(tti|xt)表示在上下文xt下生成候选tokentti的概率。
29、可选的,所述通过鉴别器对所述生成文本进行评估,包括:
30、引入所述鉴别器来评估当前生成的token序列xt是否符合对齐标准;
31、当指示加入的tti的序列通过对齐标准,否则将所述tti加入禁用列表,表达为bt=bt∪tti。
32、可选的,所述响应于所述生成文本不符合对齐标准,在所述大语言模型中通过引入回溯机制对所述生成文本的文本基本单元进行回溯与调整,包括:
33、若在时间t时,通过所述鉴别器评估所述候选token集合为不合格,触发回溯机制,其中候选token用于指示所述文本基本单元;
34、通过所述回溯机制回到上一个时间步t-1,并将当前tt-1加入所述禁用列表,表达为bt-1=bt-1∪tt-1,其中tt-1表示为时间步t-1的token;
35、通过所述回溯机制从上一个时间步的候选token集合中重新选择未在禁用列表中的token进行生成直至找到符合对齐标准的token。
36、另一方面,提供了本文档来自技高网...
【技术保护点】
1.一种基于解码概率纠正的大语言模型对齐方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述生成训练集,所述训练集根据给定问题的可能续写构成而成,包括:
3.根据权利要求2所述的方法,其特征在于,所述通过所述训练集训练得到概率纠正模型,包括:
4.根据权利要求3所述的方法,其特征在于,所述在所述大语言模型的文本生成过程中,使用训练好的概率纠正模型调整下一个文本基本单元的生成概率,包括:
5.根据权利要求1所述的方法,其特征在于,在时间步t时,所述大语言模型生成了的token序列表示为xt={t0,t1,…,tt-1},且所述大语言模型用于从候选token集合Tt={tt1,tt2,,ttn}中生成新的tokentt,所述候选token集合中的每个候选token的生成概率表达为H(tti|xt),所述H(tti|xt)表示在上下文xt下生成候选tokentti的概率。
6.根据权利要求5所述的方法,其特征在于,所述通过鉴别器对所述生成文本进行评估,包括:
7.根据权利要求1所述的方法
8.一种基于解码概率纠正的大语言模型对齐装置,其特征在于,所述装置包括:
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上述权利要求1至7任一项所述的基于解码概率纠正的大语言模型对齐方法。
...【技术特征摘要】
1.一种基于解码概率纠正的大语言模型对齐方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述生成训练集,所述训练集根据给定问题的可能续写构成而成,包括:
3.根据权利要求2所述的方法,其特征在于,所述通过所述训练集训练得到概率纠正模型,包括:
4.根据权利要求3所述的方法,其特征在于,所述在所述大语言模型的文本生成过程中,使用训练好的概率纠正模型调整下一个文本基本单元的生成概率,包括:
5.根据权利要求1所述的方法,其特征在于,在时间步t时,所述大语言模型生成了的token序列表示为xt={t0,t1,…,tt-1},且所述大语言模型用于从候选token集合tt={tt1,tt2,,ttn}中生成新的tokentt,所述候选t...
【专利技术属性】
技术研发人员:周斌,刘玉莹,张悦,黄颜熠,田磊,赵学臣,江荣,涂宏魁,王晔,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。