System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,特别涉及一种基于原文复述机制的食品安全大模型上下文扩展微调方法。
技术介绍
1、当前,许多开源llm(large language models)已经拥有了接近gpt-3.5的文本生成能力。然而,大部分开源模型的context window都不超过4k,上下文长度受到限制,也就限制了其应用,难以应对超长文档、超多轮数交互等问题。而食品安全大模型,需要外挂食品安全领域知识,常常需要给模型输入几千字以上的文档,导致超出现有模型能够处理的文本长度。
2、随着长文本模型的快速发展与迭代加强,例如gpt-4-128k与claude-2-200k等均具备了一定的长文本处理能力,但是均属于不开源的模型。同时由于训练成本高和训练数据极为保密的问题,导致难以应用于食品安全大模型。针对于开源的模型,例如llama-yarn和longalpaca等,虽然上下文窗口已经扩展至32k甚至更长,但其长文本chat的准确性还远不足以令人满意,导致当前对于技能扩展上下文窗口,同时保持模型性能的方法具备极大的需求。
3、由于食品安全领域细节知识很多,因此若期望与计算机能够实现准确回答问题,则计算机内的食品安全大模型需要结合大量的外部知识,例如标准文件、检测历史数据库等。基于此,在向计算机提问时,则需要通过向食品安全大模型输入很长的文本,才能够保证一定的准确性。
4、但是,由于现有大部分语言模型输入长度少于4k,难以满足食品安全领域外挂知识库的需要,且由于输入长度较短,从而影响到问答的准确性,有待改进。
...【技术保护点】
1.一种基于原文复述机制的食品安全大模型上下文扩展微调方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于原文复述机制的食品安全大模型上下文扩展微调方法,其特征在于:所述参考文档为悟道开源中文语料或CommonCrawl数据集。
3.根据权利要求1所述的基于原文复述机制的食品安全大模型上下文扩展微调方法,其特征在于:所述指令微调数据的数据长度大于8k且小于32k,并包括GPT-3.5设计问题与GPT-3.5设计回答。
4.根据权利要求1所述的基于原文复述机制的食品安全大模型上下文扩展微调方法,其特征在于:所述语言模型为Qwen-14b-chat模型。
5.根据权利要求4所述的基于原文复述机制的食品安全大模型上下文扩展微调方法,其特征在于:所述Qwen-14b-chat模型采用将位置编码方法替换为Dynamic-YaRN。
6.根据权利要求1所述的基于原文复述机制的食品安全大模型上下文扩展微调方法,其特征在于:所述训练微调采用Qlora训练,并将回答纳入loss计算,微调Qwen的所有Linear层。
8.根据权利要求7所述的基于原文复述机制的食品安全大模型上下文扩展微调方法,其特征在于:所述相关原文为与回答弱相关或强相关的上下文。
...【技术特征摘要】
1.一种基于原文复述机制的食品安全大模型上下文扩展微调方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于原文复述机制的食品安全大模型上下文扩展微调方法,其特征在于:所述参考文档为悟道开源中文语料或commoncrawl数据集。
3.根据权利要求1所述的基于原文复述机制的食品安全大模型上下文扩展微调方法,其特征在于:所述指令微调数据的数据长度大于8k且小于32k,并包括gpt-3.5设计问题与gpt-3.5设计回答。
4.根据权利要求1所述的基于原文复述机制的食品安全大模型上下文扩展微调方法,其特征在于:所述语言模型为qwen-14b-chat模型。
5.根据权利要求4所述的基于原文复述...
【专利技术属性】
技术研发人员:俞一炅,齐致潇,张秀宇,王菲,李文雅,
申请(专利权)人:北京信睿浩扬科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。