当前位置: 首页 > 专利查询>复旦大学专利>正文

保护隐私的多方联合训练PCFG口令模型的方法技术

技术编号:37451907 阅读:12 留言:0更新日期:2023-05-06 09:24
本发明专利技术属于系统安全技术领域,具体为一种保护隐私的多方联合训练PCFG口令模型的方法。本发明专利技术包括两个阶段:多个参与方基于本地的口令数据联合训练PCFG模型;在不直接泄露口令数据的前提下,联合多方的本地的口令数据训练全局PCFG模型,模型的结构信息和频次信息以加密的形式存储于所有参与方。本发明专利技术可以保护所有参与方的口令数据的隐私;支持三个及以上的参与方联合训练PCFG模型;支持参与方用流式口令数据更新PCFG模型。本发明专利技术为多方的场景下如何得到更加准确的PCFG模型提供了解决方案,为多方口令数据的安全利用提供有效的手段。方口令数据的安全利用提供有效的手段。方口令数据的安全利用提供有效的手段。

【技术实现步骤摘要】
保护隐私的多方联合训练PCFG口令模型的方法


[0001]本专利技术属于系统安全
,具体保护隐私的多方联合训练PCFG口令模型的方法。

技术介绍

[0002]文本口令由于其便捷性仍然是当前主流的身份验证方式。口令强度度量器是一种评估口令安全性的工具,其功能是评估用户创建的口令抵御攻击的能力。当前口令强度度量器评估口令强度的主要方式是评估该口令在一个强大的数据驱动模型下的猜测数。口令强度度量器的准确性与数据驱动模型的强弱有直接的关系。准确的口令强度度量器能够帮助用户了解其口令的真实强弱关系,为用户口令安全提供可靠的检验。然而,当前主流的数据驱动模型主要由一个数据持有方训练。当一个数据持有方所拥有的数据不充分不全面时,其训练的模型在口令强度评估时存在较大的偏差。
[0003]上下文无关文法模型(Probabilistic Context

free Grammars,PCFG)[1]是一种基于口令模板的数据驱动模型。初始的PCFG模型将口令建模为数字、字母、特殊字符以及年份等组成单元构成。例如,口令“password123”将分解为模板L8D3,字母片段“password”和数字片段“123”。在训练步骤中,其学习口令的结构信息以及每个组成单元的频率。通过学习组成单元的分布信息,PCFG模型能够按照概率大小从高到低枚举猜测口令用于口令攻击。同时,PCFG模型也能用于评估口令概率进而分析口令强度信息。
[0004]口令数据是数据驱动的口令模型(例如上下文无关文法模型)的重要影响因素。一个通用的数据驱动口令猜测模型要求训练的数据足够充分。换句话说,不充分的口令数据将导致训练的模型学习的口令分布与真实的口令分布有较大的差异,导致模型评估的口令强度有偏差。对于一个持有少量口令数据的数据持有者来说,如何获取更多的有效数据训练更加准确的口令强度评估模型是其面临的一个问题。为了减少不充分数据带来的影响,许多小数据持有者希望能够合并所有参与方的数据用于联合训练一个强大的口令评估模型。如何在确保口令信息安全的情况下在联合训练一个口令强度评估模型也是当前需要解决的一个问题。
[0005]一种直接的实现方案是引入可靠的中心服务器用于收集来自其他口令持有者的所有的口令数据。该方案无法直接用于实践,一方面是因为数据持有者不希望他们的口令数据被直接泄露。另一方面,口令数据持有者可能只是临时拥有口令访问权限,他们需要遵守口令安全的规则确保口令不被他人存储。另一种方案是所有数据持有者首先在本地训练数据驱动模型,接着使用多方安全计算技术聚合所有本地模型得到全局的口令模型。
[0006]本专利技术涉及到秘密分享技术[2],广泛运用于多方安全计算的场景中。秘密分享是指将数据按照一定的方式拆分为多个无意义的密文(一般是参与方的个数),每个参与方持有其中的一个密文。单个参与方无法根据所持有的密文恢复原有的数据;只有联合所有参与方的密文,原始的数据才能恢复。在秘密分享技术的基础上,多方安全计算技术能够支持在多个秘密分享密文下执行特定的数值运算而不泄露参与运算的原始数据。具体来说,多
个参与方将本地明文数据分解为多个秘密分享并发送给其他参与方;所有参与方在秘密分享密文上执行函数运算(如加减乘除),并恢复出计算结果的明文,输入的数据和所有的中间计算结果对于参与者来说是不可见的。

技术实现思路

[0007]本专利技术的目的在于提供一种能够有效保护多方口令数据安全利用的多方联合训练PCFG口令模型的方法。
[0008]本专利技术提出的保护隐私的多方联合训练PCFG口令模型的方法,如图1,包括两个阶段:多个参与方基于本地的口令数据联合训练PCFG模型;参与方使用新收集的口令更新联合训练的PCFG模型;本专利技术为多方场景下如何得到更加准确的PCFG模型提供解决方案,为多方口令数据的分析提供有效的手段。
[0009]保护隐私的多方联合训练的PCFG口令模型的要求是,在不直接泄露口令数据的前提下,联合多方的本地的口令数据训练全局PCFG模型。全局的PCFG模型的目标是:与直接使用所有参与方的口令数据训练得到的模型具有相同的准确度;并且,模型的结构信息和频次信息以加密的形式存储于所有参与方。
[0010]本专利技术提出的保护隐私的多方联合训练的PCFG口令模型的方法,具体步骤如下:
[0011]步骤一、所有参与方基于本地数据训练本地的PCFG模型;
[0012]假设有K(K≥3)个参与方希望联合他人的口令数据训练更加准确的PCFG模型。每个参与方拥有访问本地的口令明文的权限。参与方基于本地的口令数据训练本地的PCFG模型。
[0013]其中,PCFG模型具有以下特征:
[0014](1)PCFG模型将口令建模为口令模板组成的结构。口令模板由多个口令片段组成;
[0015](2)口令片段类型包括字母、数字、特殊字符、年份、常见词语等;
[0016](3)PCFG模型中的口令模板和口令片段统称为口令组成单元(结构信息)。每个组成单元拥有统计得到的频次信息。
[0017]步骤二、合并所有的本地PCFG模型;
[0018]基于步骤一训练得到的多个本地PCFG模型,所有参与方联合训练全局PCFG模型,如图2;联合训练的目标是安全地将所有本地模型合并为全局模型;合并本地模型的步骤包括合并所有本地的口令组成单元空间以及联合计算全局组成单元的频次信息。具体使用哈希函数加密全局模型的结构信息,使用秘密分享技术加密模型的频次信息。之后,参与方联合计算口令组成单元的概率,口令组成单元的概率为该单元的频次信息与同一类型的所有频次信息之和的比值;由于统计数值在全局模型中为秘密分享的形式,概率数值的计算也需要在秘密分享上进行。本专利技术通过引入秘密分享上的对数计算方法,将统计数值转化为对数的形式来避免概率数值下溢的问题。
[0019]具体地,由于参与方的背景不同,产生的本地PCFG模型在口令组成单元的空间上存在较大的差异。因此,在合并频次信息前,所有参与方需要获取全局的口令组成单元的空间。本专利技术使用以下步骤合并所有本地的口令组成单元空间:
[0020](1)所有参与方先利用的哈希函数计算口令组成单元的哈希值。对于相同的组成单元,哈希函数能够保证所有参与方能得到相同的哈希值。口令组成单元的哈希值将作为
该单元的唯一的编号;
[0021](2)参与方按照顺序将本地的模板编号、数字字符编号、字母字符编号、特殊字符编号、字母大小写掩码编号、年份编号和常用词语编号发往其他参与方;
[0022](3)当参与方接收所有编号的集合后,对编码集合按照类型求编码集合的并集作为全局的组成单元空间,并存储于本地。
[0023]对于全局组成单元空间内每个单元,所有参与方将在不泄露具体数值的前提下联合计算组成单元的频次信息。对于每个口令组成单元,本专利技术使用如下步骤计算该单元的联合频次:
[0024](1)每个参与方将该单元在本地的频次信息用秘密分享技术分解为K个秘密分享,并本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.保护隐私的多方联合训练的PCFG口令模型的方法,其特征在于,在不直接泄露口令数据的前提下,联合多方的口令数据训练全局PCFG模型;全局的PCFG模型的目标是,与直接使用所有参与方的口令数据训练得到的模型具有相同的准确度;并且,模型的结构信息和频次信息以加密的形式存储于多个参与方;具体步骤如下:步骤一、所有参与方基于本地数据训练本地的PCFG模型;假设有K个参与方希望联合他人的口令数据训练更加准确的PCFG模型,K≥3;每个参与方拥有访问本地的口令明文的权限;参与方基于本地的口令数据训练本地的PCFG模型;其中,PCFG模型拥有以下特征:(1)PCFG模型将口令建模为口令模板组成的结构;口令模板由多个口令片段组成;(2)口令片段类型包括字母、数字、特殊字符、年份、常见词语;(3)PCFG模型中的口令模板和口令片段统称为口令组成单元;每个组成单元拥有统计得到的频次信息;步骤二、安全地合并所有本地PCFG模型;基于步骤一训练得到的多个本地PCFG模型,所有参与方联合训练全局PCFG模型;联合训练的目标是安全地将所有本地模型合并为全局模型;合并本地模型的步骤包括合并所有本地的口令组成单元空间以及联合计算全局组成单元的频次信息;具体使用哈希函数加密全局模型的结构信息,使用秘密分享技术加密模型的频次信息;之后,参与方联合计算口令组成单元的概率;口令组成单元的概率为该单元的频次信息与同一类型的所有频次信息之和的比值;由于统计数值在全局模型中为秘密分享的形式,概率数值的计算在秘密分享上进行;通过引入秘密分享上的对数计算,将统计数值转化为对数值来避免概率数值下溢的问题;步骤三、迭代地更新全局PCFG模型;基于步骤二合并得到的全局PCFG模型,参与方能够迭代地将新收集口令用于更新全局PCFG模型;参与方更新模型的目的在于使全局PCFG模型学习新口令数据的特征从而更加准确地分析口令的强度;对于新收集的口令数据,参与方先按照PCFG规则将口令分解为口令组成单元以及对应的频次信息;之后,更新的过程包括更新模型的结构信息以及更新模型的频次信息;由于更新过程需要保持全局模型的一致性,更新操作执行时只允许有一名参与方更新模型。2.根据权利要求1所述的保护隐私的多方联合训练的PCFG口令模型的方法,其特征在于,在步骤二中,合并所有本地的口令组成单元空间的过程如下:(1)所有参与方先利用的哈希函数计算口令组成单元的哈希值;对于相同的组成单元,哈希函数能够保证所有参与方能得到相同的哈希值;口令组成单元的哈希值将作为该单元的唯一的编号;(2)参与方按照顺序将本地的模板编号、数字字符编号、字母字符编号、特殊字符编号、字母大小写掩码编号、年份编号和常用词语编号发往其他参与方...

【专利技术属性】
技术研发人员:韩伟力俞继涛徐铭张浩东
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1