System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于人工智能,具体是基于差分隐私与大模型思维链的知识问答模型。
技术介绍
1、随着信息技术的迅猛发展,大数据时代的到来使得人们面临着前所未有的信息爆炸。在专业领域中,各类知识不断涌现,而获取、管理和应用这些知识变得愈发复杂。一个高效且智能的专业知识问答系统,成为解决专业领域知识管理难题的迫切需求。
2、随着大语言模型的崛起,智能问答领域发生了大的变革。大语言模型在问答系统等任务上展现出强大的潜能,大语言模型可以使得计算机可以更好的地理解和生成自然语言,这有助于增强问答系统对用户提出的复杂问题的理解能力。思维链则是一种大语言模型的微调技术,主要思想是通过向大语言模型展示一些少量的样例,在样例中解释推理过程,大语言模型在回答提示时也会显示推理过程,引导出更准确的结果。
3、然而大语言模型通常面临一些安全和隐私方面的挑战,由于其训练和调用的数据库极其庞大,存在大量敏感信息,一旦被攻击或泄漏,存在泄漏用户隐私的风险,不仅会危及用户的隐私和安全,也会影响大语言模型的可靠性和可信度。差分隐私是一种强大的隐私保护技术,可以有效地保护大语言模型在训练和推理过程中的隐私。其核心思想是通过在模型训练或推理过程中添加随机噪声,使得模型的输出对于任何单个训练样本或输入样本都不太敏感,从而达到隐私保护的目的。
4、目前,利用差分隐私技术对知识问答模型进行隐私保护的过程中,由于差分隐私需在数据库中添加随机噪声,会使得大语言模型训练收敛性较低,数据可用性较差,从而导致知识问答的准确性降低。为此,有必要提出基于差分
技术实现思路
1、为了解决上述差分隐私添加随机噪声,导致模型知识问答模型准确性降低问题,本专利技术的目的是提供基于差分隐私与大模型思维链的知识问答模型,通过对数据库中的用户隐私偏好进行预先查询,按照隐私偏好对数据库进行分级,根据分级调整差分隐私对数据库的扰动量,实现有效提高知识问答模型的准确性。
2、为了实现上述目的,本专利技术的技术方案如下:基于差分隐私与大模型思维链的知识问答模型,包括:
3、交互模块,用于通过前端界面,收集用户在上传数据前的隐私偏好信息,将用户上传的数据分为若干隐私保护级别;
4、数据处理模块,用于收集文档,对文档内容进行提取,构建数据库,根据隐私保护级别将数据库对应分为若干级;
5、扰动模块,用于对数据库添加扰动量,每级数据库对应不同的扰动量,数据库隐私保护级别越高,扰动量越大,且扰动量参数与数据库级别满足线性关系;
6、问题处理模块,用于对输入的问题进行预处理,预处理包括文本清洗、分词和去除停用词;
7、意图识别模块,用于识别输入问题中的关键实体,进行判断分类;
8、答案生成模块,用于根据提问类别和关键实体,基于gpt大语言模型调用数据库进行回答;
9、存储模块,用于存储互动记录,互动记录用于gpt大语言模型二次训练。
10、进一步,交互模块中,隐私偏好信息通过问卷形式收集,问卷包括用户愿意分享的数据类型、数据的敏感度级别和对隐私泄露风险的接受程度,问卷为评分制,用户综合评分取所有项评分的平均值,依照综合评分将用户上传的数据分为若干隐私保护等级。
11、进一步,数据处理模块还设有切片单元,用于根据文档的布局、段落信息和预设的片段最大长度,对文档内容进行切片处理。
12、进一步,数据处理模块还用于根据文档内容将数据分为表格和文本两类,每级数据库均包括结构化数据库和非结构化数据库,结构化数据库用于存储表格类数据,非结构化数据库用于存储文本类数据。
13、进一步,扰动模块中,扰动量为噪声,噪声符合拉普拉斯分布、高斯分布和指数分布中的一种或多种。
14、进一步,gpt大语言模型采用思维链技术进行微调。
15、进一步,意图识别模块设有语义分析单元,用于利用语义分析技术准确识别输入问题中的关键实体,同时将gpt大语言模型作为关键实体识别的后备方法;若语义分析单元未能识别出输入问题中的关键实体,则将输入问题和语义分析单元逻辑过程一同输入gpt大语言模型,再将输出结果传递至语义分析单元,进行关键实体识别。
16、进一步,意图识别模块中,问题分类包括直接生成类、非结构化查询类和结构化查询类。
17、进一步,答案生成模块还设有检索单元,用于在数据库中检索数据。
18、进一步,答案生成模块还设有构造单元,用于根据问题关键实体,结合检索单元检索到的数据,构造相应的提示,输入到gpt大语言模型中。
19、基础方案的有益效果是:1、本专利技术通过收集用户的隐私偏好信息,并根据这些信息将用户分为不同的隐私保护级别,一方面,模型能够确保在提供知识问答服务的同时,充分尊重和保护用户的隐私,增强了数据的隐私保护能力,降低了隐私泄露的风险,另一方面,根据用户隐私保护级别,可调整差分隐私对数据库的扰动量,与现有方法随机添加扰动量相比,可适当减少扰动量对数据库的影响,实现有效提高知识问答模型的准确性。
20、2、通过意图识别模块将输入问题进行分类,同时将数据库分为结构化和非结构化数据库,将文字和表格数据分类别进行查询,提升了检索单元的精细度和灵活性,进而实现知识问答模型的准确性。
21、3、通过将gpt大语言模型使用思维链技术进行微调,给大模型提供关于问题的一些演示输入、过程与输出的思维范例提示,使得模型在一定程度上模拟人类解决问题的过程,有助于使用者更好地理解答案的来源和推导过程,增强对答案的信任度,同时提高答案的准确性和可靠性。
22、4、通过存储模块收集和分析模型在解决问题过程中的思维链条和答案质量,可以进一步优化模型的性能和推理能力,有助于模型在未来更好地应对更复杂、更精细的问题。
本文档来自技高网...【技术保护点】
1.基于差分隐私与大模型思维链的知识问答模型,其特征在于:包括:
2.根据权利要求1所述的基于差分隐私与大模型思维链的知识问答模型,其特征在于:交互模块中,隐私偏好信息通过问卷形式收集,问卷包括用户愿意分享的数据类型、数据的敏感度级别和对隐私泄露风险的接受程度,问卷为评分制,综合评分取所有项评分的平均值,依照综合评分将用户上传的数据分为若干隐私保护等级。
3.根据权利要求2所述的基于差分隐私与大模型思维链的知识问答模型,其特征在于:数据处理模块还设有切片单元,用于根据文档的布局、段落信息和预设的片段最大长度,对文档内容进行切片处理。
4.根据权利要求3所述的基于差分隐私与大模型思维链的知识问答模型,其特征在于:数据处理模块还用于根据文档内容将数据分为表格和文本两类,每级数据库均包括结构化数据库和非结构化数据库,结构化数据库用于存储表格类数据,非结构化数据库用于存储文本类数据。
5.根据权利要求4所述的基于差分隐私与大模型思维链的知识问答模型,其特征在于:扰动模块中,扰动量为噪声,噪声符合拉普拉斯分布、高斯分布和指数分布中的一种或多种
6.根据权利要求5所述的基于差分隐私与大模型思维链的知识问答模型,其特征在于:GPT大语言模型采用思维链技术进行微调。
7.根据权利要求6所述的基于差分隐私与大模型思维链的知识问答模型,其特征在于:意图识别模块设有语义分析单元,用于利用语义分析技术准确识别输入问题中的关键实体,同时将GPT大语言模型作为关键实体识别的后备方法;若语义分析单元未能识别出输入问题中的关键实体,则将输入问题和语义分析单元逻辑过程一同输入GPT大语言模型,再将输出结果传递至语义分析单元,进行关键实体识别。
8.根据权利要求7所述的基于差分隐私与大模型思维链的知识问答模型,其特征在于:意图识别模块中,问题分类包括直接生成类、非结构化查询类和结构化查询类。
9.根据权利要求8所述的基于差分隐私与大模型思维链的知识问答模型,其特征在于:答案生成模块还设有检索单元,用于在数据库中检索数据。
10.根据权利要求9所述的基于差分隐私与大模型思维链的知识问答模型,其特征在于:答案生成模块还设有构造单元,用于根据问题关键实体,结合检索单元检索到的数据,构造相应的提示,输入到GPT大语言模型中。
...【技术特征摘要】
1.基于差分隐私与大模型思维链的知识问答模型,其特征在于:包括:
2.根据权利要求1所述的基于差分隐私与大模型思维链的知识问答模型,其特征在于:交互模块中,隐私偏好信息通过问卷形式收集,问卷包括用户愿意分享的数据类型、数据的敏感度级别和对隐私泄露风险的接受程度,问卷为评分制,综合评分取所有项评分的平均值,依照综合评分将用户上传的数据分为若干隐私保护等级。
3.根据权利要求2所述的基于差分隐私与大模型思维链的知识问答模型,其特征在于:数据处理模块还设有切片单元,用于根据文档的布局、段落信息和预设的片段最大长度,对文档内容进行切片处理。
4.根据权利要求3所述的基于差分隐私与大模型思维链的知识问答模型,其特征在于:数据处理模块还用于根据文档内容将数据分为表格和文本两类,每级数据库均包括结构化数据库和非结构化数据库,结构化数据库用于存储表格类数据,非结构化数据库用于存储文本类数据。
5.根据权利要求4所述的基于差分隐私与大模型思维链的知识问答模型,其特征在于:扰动模块中,扰动量为噪声,噪声符合拉普拉斯分布、高斯分布和指数分布中的一种或多种。
6...
【专利技术属性】
技术研发人员:宋伊萍,张菊华,杨玉欣,周云彦,田植良,李东升,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。