System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及模型处理领域,具体涉及大模型解码约束方法、设备及介质。
技术介绍
1、随着技术的发展,大语言模型(large language model,llm)逐渐走入人们的视野。
2、尽管大语言模型在创造性和灵活性方面取得了显著成就,但是在内容生成过程中的可控性问题却逐渐显现。比如,由于大语言模型的生成过程缺乏足够的监督,它们有时会生成无效或不可执行的计划,影响了任务的完成质量。
3、传统方案中,常见解决方法是结构化生成,通过格式限制让大语言模型以json或xml等标准化格式提供输出。但是结构化生成方法大多会限制模型生成必要中间推理步骤的能力,并且强制的格式要求可能与模型自然生成答案的方式不兼容。
技术实现思路
1、为了解决上述问题,本申请提出了一种大模型解码约束方法,包括:
2、基于有限状态转换器,生成用于将大语言模型输出的最小文本单元还原为字符串的fst模型;并基于确定有限状态自动机,通过对正则表达式进行编译,生成用于对fst模型输出的字符串进行约束条件验证的dfa模型;
3、基于所述fst模型、所述dfa模型,形成联合约束模型;
4、基于大语言模型进行解码,生成对应词汇表的概率得分;
5、基于所述联合约束模型对所述词汇表中的最小文本单元进行排除,输出的指定最小文本单元;
6、基于待判定因子,对所述指定最小文本单元的结构进行动态调整,更新所述大语言模型的输出。
7、在一个示例中,基于
8、基于有限状态转换器,生成fst模型,并进行初始化,将根状态存入fst结构;
9、针对词汇表,遍历其中的每个词汇,并对每个词汇进行词汇表转换处理,直至将所有词汇遍历完毕;
10、其中,所述词汇表转换处理包括:
11、针对每个词汇,从该词汇的第一个字符开始,为每个字符设置输入标签为空,并将输出标签设置为当前字符,并更新边集合、状态集合;
12、针对该词汇的所有字符循环执行,直至输出最后一个字符,将完整的该词汇作为输入标签,将状态返回至根节点。
13、在一个示例中,基于确定有限状态自动机,通过对正则表达式进行编译,生成用于对fst模型输出的字符串进行约束条件验证的dfa模型,具体包括:
14、获取预先定义的正则表达式;
15、基于确定有限状态自动机,对所述正则表达式进行编译,生成dfa模型;
16、对所述dfa模型进行初始化;
17、通过所述dfa模型获取所述fst模型输出的字符串,根据通过所述正则表达式编译得到的约束条件,对所述字符串中的每个字符依次进行验证,直至将所述字符串验证完毕。
18、在一个示例中,基于所述联合约束模型对所述词汇表中的最小文本单元进行排除,输出的指定最小文本单元,具体包括:
19、基于所述联合约束模型,通过所述正则表达式对应的正则表达约束,对所述词汇表中的最小文本单元依次进行验证,并将非法词汇排除,将剩余的合法词汇构成候选集;
20、基于预设采样算法,在所述候选集中选取指定最小文本单元,作为输出。
21、在一个示例中,基于待判定因子,对所述指定最小文本单元的结构进行动态调整,更新所述大语言模型的输出,具体包括:
22、将当前最后输出的第一指定最小文本单元,标记为待判定因子;
23、获取下一轮生成的第二指定最小文本单元,并将所述待判定因子与所述第二指定最小文本单元组合,并判断得到的组合式是否符合所述正则表达式对应的约束条件;
24、若符合,则根据所述组合式,对所述待判定因子进行更新;
25、若未符合,则将所述待判定因子指向新的指定最小文本单元。
26、在一个示例中,判断得到的组合式是否符合所述正则表达式对应的约束条件,具体包括:
27、确定所述组合式对应的当前长度;
28、若所述当前长度超过预设长度阈值,则触发回退策略,在所述组合式中,保留最新获得的若干个指定最小文本单元,将剩余的指定最小文本单元删除,并记录本次的删除数量;
29、基于所述正则表达式,以及所述删除数量,选取对应的起始判断位置;
30、根据所述起始判断位置,判断所述组合式是否符合所述正则表达式对应的约束条件。
31、在一个示例中,所述方法还包括:
32、每当更新所述待判定因子,则根据所述待判定因子中,各指定最小文本单元在词汇表中对应的概率得分,综合得到累积概率得分;
33、若所述累积概率得分低于对应的预设动态得分,则从所述待判定因子中的最后一个指定最小文本单元开始,逐渐替换为其他指定最小文本单元,直至累积概率得分高于对应的预设动态得分。
34、在一个示例中,所述方法还包括:
35、获取所述待判定因子的在上一长度对应的预设动态得分;
36、基于所述词汇表中各词汇的概率得分的标准差和均值,对所述概率得分的所处区间进行预估;
37、基于所述所处区间的最大值,与上一长度对应的预设动态得分,得到当前长度对应的预设动态得分。
38、另一方面,本申请还提出了一种大模型解码约束设备,包括:
39、至少一个处理器;以及,
40、与所述至少一个处理器通信连接的存储器;其中,
41、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如:上述任一示例所述的大模型解码约束方法。
42、另一方面,本申请还提出了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:上述任一示例所述的大模型解码约束方法。
43、通过本申请提出大模型解码约束方法能够带来如下有益效果:
44、1、不强制固定输出格式,允许模型自由生成中间推理步骤,与传统结构化生成(json/xml)相比,避免与自然生成逻辑冲突,保留生成灵活性。
45、2、通过联合约束模型(fst+dfa)实时筛选和调整最小文本单元,既约束无效输出,又支持动态结构优化,平衡生成自由度与可控性,动态可控性提升。并且dfa模型通过编译正则表达式快速验证字符串约束条件,比传统后处理校验更轻量,降低无效内容的生成概率。
46、3、基于词汇表概率得分和最小单元排除,约束过程适配模型原生解码逻辑,无需强制格式改写,减少生成性能损耗。
本文档来自技高网...【技术保护点】
1.一种大模型解码约束方法,其特征在于,包括:
2.根据权利要求1所述的大模型解码约束方法,其特征在于,基于有限状态转换器,生成用于将大语言模型输出的最小文本单元还原为字符串的FST模型,具体包括:
3.根据权利要求1所述的大模型解码约束方法,其特征在于,基于确定有限状态自动机,通过对正则表达式进行编译,生成用于对FST模型输出的字符串进行约束条件验证的DFA模型,具体包括:
4.根据权利要求3所述的大模型解码约束方法,其特征在于,基于所述联合约束模型对所述词汇表中的最小文本单元进行排除,输出的指定最小文本单元,具体包括:
5.根据权利要求1所述的大模型解码约束方法,其特征在于,基于待判定因子,对所述指定最小文本单元的结构进行动态调整,更新所述大语言模型的输出,具体包括:
6.根据权利要求5所述的大模型解码约束方法,其特征在于,判断得到的组合式是否符合所述正则表达式对应的约束条件,具体包括:
7.根据权利要求5所述的大模型解码约束方法,其特征在于,所述方法还包括:
8.根据权利要求7所述的大模型解
9.一种大模型解码约束设备,其特征在于,包括:
10.一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:权利要求1~8中任一项权利要求所述的大模型解码约束方法。
...【技术特征摘要】
1.一种大模型解码约束方法,其特征在于,包括:
2.根据权利要求1所述的大模型解码约束方法,其特征在于,基于有限状态转换器,生成用于将大语言模型输出的最小文本单元还原为字符串的fst模型,具体包括:
3.根据权利要求1所述的大模型解码约束方法,其特征在于,基于确定有限状态自动机,通过对正则表达式进行编译,生成用于对fst模型输出的字符串进行约束条件验证的dfa模型,具体包括:
4.根据权利要求3所述的大模型解码约束方法,其特征在于,基于所述联合约束模型对所述词汇表中的最小文本单元进行排除,输出的指定最小文本单元,具体包括:
5.根据权利要求1所述的大模型解码约束方法,其特征在于...
【专利技术属性】
技术研发人员:宋刚,郑伟波,周祥国,韩嘉懿,杜宏伟,丁一凡,郑伟航,王家琦,徐雅迪,高海涛,
申请(专利权)人:浪潮通用软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。