System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,具体涉及一种大语言模型隐私信息保护方法。
技术介绍
1、大语言模型(large language models, llm)是一种通过人工智能算法对实现大规模人类自然语言理解,从而完成语言推理、文本生成和人机互动等多种不同任务的深度学习大模型。
2、以对话生成与训练模型chatgpt为主要代表了的大语言模型以其高质量对话、复杂推理、跨领域任泛化等多种优秀能力,大语言模型通过其优秀的模型性能辅助解决了多种多样的开放性任务,备受各种不同业界领域中不同用户的广泛关注。
3、由于大语言模型参数规模十分庞大,在对大语言模型重新训练过程中时间开销及其庞大,因此当前业界广泛应用的通用大语言模型的主要来源于网络上公开的预训练通用模型。这种公开的预训练通用模型对文本数据处理过程十分相近,该模型具有较为优秀的泛化性,但这种十分相近的数据处理流程也潜藏了较大的用户隐私数据泄露风险。
技术实现思路
1、本专利技术提供一种大语言模型隐私信息保护方法,以解决传统聚类算法无法准确获取隐私信息的问题,所采用的技术方案具体如下:
2、本专利技术一个实施例一种大语言模型隐私信息保护方法,该方法包括以下步骤:
3、获取大语言模型相关参数;
4、对获取得到的大语言模型相关参数进行预处理得到不同维度分词数据,根据大语言模型相关参数计算不同维度分词数据的同类语义集合,根据同类语义集合计算不同维度分词的重要关联评价系数;
5、利用大语
6、根据高频隐私信息簇对大语言模型相关参数获取脱敏替换文本序列,根据脱敏替换文本序列对大语言模型隐私信息进行保护。
7、优选地,所述大语言模型相关参数包括:用户输入文本序列、大语言模型输出的通用文本向量。
8、优选地,所述根据大语言模型相关参数计算不同维度分词数据的同类语义集合的方法为:
9、将每个维度分词数据与其他不同维度分词的中文字符编码的数值差记为第一差值,将第一差值为预设值的所有不同维度分词构成同类语义集合。
10、优选地,所述根据同类语义集合计算不同维度分词的重要关联评价系数的数学表达式为:
11、
12、式中,表示了调节预设常数,表示了第个时刻处用户输入文本序列中第个维度分词数据的词频,表示了第个时刻处用户输入文本序列第个维度的同类语义集合的所有不同分词数据总个数,表示了两个不同维度分词数据之间的相对距离,,分别表示了在第个时刻处用户输入文本序列中第个维度和第个维度的分词数据,表示了第个时刻处用户输入文本序列的中第个维度分词的重要关联评价系数。
13、优选地,所述根据不同维度分词的重要关联系数和同义词词林编码计算不同时刻处不同维度分词的关联相似指数的数学表达式为:
14、
15、式中,表示了第个时刻处用户输入文本序列中第个维度分词的重要关联评价系数,表示了第个时刻处用户输入文本序列数据的维度,表示了两个不同维度分词编码向量之间的余弦相似性,分别表示了第个时刻处用户输入文本序列中第个维度分词和第个维度分词编码向量,表示了以自然常数为底的指数函数,表示了两个不同维度分词编码向量所在同义词词林的高度差值,表示了第个时刻处第个维度分词的关联相似指数。
16、优选地,所述两个不同维度分词编码向量所在同义词词林的高度差值计算的数学表达式为:
17、
18、式中,,分别表示了第个时刻处第个维度分词和第个维度两个不同维度分词编码向量所在的同义词词林的高度,表示了预设区别常量,,分别表示了第个时刻处第个维度和第个维度分词所在的同义词词林中所有不同同义词构成的集合,表示了第个时刻处用户输入文本序列中第个维度分词和第个维度分词之的间同义词词林的高度差值。
19、优选地,所述根据不同时刻处不同维度分词的关联相似指数计算聚类评价函数的数学表达式为:
20、
21、式中,表示了第个时刻处用户输入的文本序列数据的维度,表示了用户输入文本数据序列的类别总数,表示了第个时刻处第个维度分词的关联相似指数,表示了第个时刻处类中心维度分词的关联相似指数,表示了第个时刻处用户输入的文本序列数据聚类评价函数。
22、优选地,所述根据聚类评价函数获取高频隐私信息簇的方法为:
23、将文本序列数据聚类评价函数最小值时得到聚类簇记为高频隐私信息簇。
24、优选地,所述根据高频隐私信息簇对大语言模型相关参数获取脱敏替换文本序列的方法为:
25、将大语言模型相关参数中高频隐私信息簇在希腊字母表中按照预设脱敏步长进行替换,将替换后得到的数据记为脱敏替换文本序列。
26、优选地,所述根据脱敏替换文本序列对大语言模型隐私信息进行保护的方法为:
27、将脱敏替换文本序列作为aes加密算法输入,得到加密后大语言模型相关参数,从而对大语言模型隐私信息进行保护。
28、本专利技术的有益效果是:本专利技术通过对大语言模型中不同维度分词的文字编码差异构建不同的同类语义集合,并利用同类语义集合中不同分词数据计算得到重要关联评价系数,对大语言模型用户输入的文本数据中隐私信息进行初步提取计算。进一步地,本专利技术通过同义词词林获取不同维度分词的编码向量,并结合重要关联评价系数和编码向量计算不同维度分词的关联相似指数,通过关联相似指数有效地反映了大语言模型用户输入的文本数据中的隐私信息数据。本专利技术结合隐私信息数据对传统聚类损失函数进行优化,有效地规避了传统聚类算法中大语言模型用户输入文本信息直接聚类时导致的隐私信息获取不准确的问题。
本文档来自技高网...【技术保护点】
1.一种大语言模型隐私信息保护方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的一种大语言模型隐私信息保护方法,其特征在于,所述根据大语言模型相关参数计算不同维度分词数据的同类语义集合的方法为:
3.根据权利要求2所述的一种大语言模型隐私信息保护方法,其特征在于,所述根据同类语义集合计算不同维度分词的重要关联评价系数的数学表达式为:
4.根据权利要求3所述的一种大语言模型隐私信息保护方法,其特征在于,所述根据不同维度分词的重要关联系数和同义词词林编码计算不同时刻处不同维度分词的关联相似指数的数学表达式为:
5.根据权利要求4所述的一种大语言模型隐私信息保护方法,其特征在于,所述两个不同维度分词编码向量所在同义词词林的高度差值计算的数学表达式为:
6.根据权利要求4所述的一种大语言模型隐私信息保护方法,其特征在于,所述根据不同时刻处不同维度分词的关联相似指数计算聚类评价函数的数学表达式为:
7.根据权利要求6所述的一种大语言模型隐私信息保护方法,其特征在于,所述根据聚类评价函数获取高频隐私信息簇的
8.根据权利要求7所述的一种大语言模型隐私信息保护方法,其特征在于,所述根据高频隐私信息簇对大语言模型相关参数获取脱敏替换文本序列的方法为:
9.根据权利要求1所述的一种大语言模型隐私信息保护方法,其特征在于,所述根据脱敏替换文本序列对大语言模型隐私信息进行保护的方法为:
...【技术特征摘要】
1.一种大语言模型隐私信息保护方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的一种大语言模型隐私信息保护方法,其特征在于,所述根据大语言模型相关参数计算不同维度分词数据的同类语义集合的方法为:
3.根据权利要求2所述的一种大语言模型隐私信息保护方法,其特征在于,所述根据同类语义集合计算不同维度分词的重要关联评价系数的数学表达式为:
4.根据权利要求3所述的一种大语言模型隐私信息保护方法,其特征在于,所述根据不同维度分词的重要关联系数和同义词词林编码计算不同时刻处不同维度分词的关联相似指数的数学表达式为:
5.根据权利要求4所述的一种大语言模型隐私信息保护方法,其特征在于,所述两个...
【专利技术属性】
技术研发人员:赵策,屠静,王亚,万晶晶,李伟伟,颉彬,张玥,孙岩,刘岩,
申请(专利权)人:卓世科技海南有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。