文本的隐私政策合规检测方法及系统技术方案

技术编号：42716246 阅读：1 留言：0更新日期：2024-09-13 12:05

本发明专利技术提供一种文本的隐私政策合规检测方法及系统，其中方法包括：基于自然语言处理模型，对待检测文本进行上下文语义信息提取，得到包含文本上下文语义信息的特征向量；将特征向量输入神经网络文本分类模型，得到神经网络文本分类模型输出的分类结果。本发明专利技术提供的文本的隐私政策合规检测方法及系统，通过自然语言处理模型结合神经网络文本分类模型，可捕捉到待检测文本的上下文信息，具有更优异的学习能力与表达能力，以有效提取待检测文本的特征数据，精准实现了待检测文本的多标签自动化分类。将构建的文本分类模型与隐私政策数据集中凝练总结的隐私政策合规规则结合，高效精准地实现了隐私政策的自动化合规检测。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种文本的隐私政策合规检测方法及系统。

技术介绍

1、隐私政策是企业的在线服务或应用程序向个人用户提供在线通知和选择的最常见方式之一，也是向个人用户披露数据实践的主要手段。其旨在告知企业如何收集、处理、共享和保护用户的个人信息。由于隐私政策属于法律性质的文件，所以其通常充斥着大量的法律术语。这些术语不仅专业性强，它们构成的语句也往往冗长且错综复杂。

2、现有的基于对隐私政策的合规检测一般是基于但往往因为法律术语问题导致标注任务的专业性不强，且效果不佳；另一些则是使用多种自然语言处理和其他技术融合，例如文本匹配等方式实现，实现难度与复杂度大，不具有良好的实用性。如何高效准确的实现隐私政策的合规检测的需求是目前业界亟待解决的重要课题。

技术实现思路

1、

2、本专利技术提供一种文本的隐私政策合规检测方法及系统，用以实现高效准确的实现隐私政策的合规检测。

3、本专利技术提供一种文本的隐私政策合规检测方法，包括如下步骤：

4、获取待检测文本，并基于自然语言处理模型，对所述待检测文本进行上下文语义信息提取，得到所述自然语言处理模型输出的包含文本上下文语义信息的特征向量，所述自然语言处理模型是基于隐私政策数据集中的样本训练得到的；

5、将所述特征向量输入神经网络文本分类模型，得到所述神经网络文本分类模型输出的分类结果，所述神经网络文本分类模型是基于隐私政策数据集中的文本样本及其对应的隐私类别标签训练得到

6、根据本专利技术提供的一种文本的隐私政策合规检测方法，所述基于自然语言处理模型，对所述待检测文本进行上下文语义信息提取，得到所述自然语言处理模型输出的包含文本上下文语义信息的特征向量，包括：

7、基于自然语言处理模型中的多层编码器，对所述待检测文本进行编码，得到编码数据；

8、基于所述自然语言处理模型中的自注意力机制，对所述编码数据进行上下文语义信息提取，得到所述包含文本上下文语义信息的特征向量。

9、根据本专利技术提供的一种文本的隐私政策合规检测方法，所述自然语言处理模型是基于对roberta模型的最大截断输入长度以及学习率进行调整后构建的；

10、所述最大截断输入长度以及所述学习率是基于所述待检测文本的文本特征进行确定的。

11、根据本专利技术提供的一种文本的隐私政策合规检测方法，所述神经网络文本分类模型是基于改进后的胶囊网络确定的；

12、所述改进后的胶囊网络是基于多头注意力机制层、n-gram层、初级胶囊层、深度胶囊层、主胶囊层以及全连接胶囊层构建的。

13、根据本专利技术提供的一种文本的隐私政策合规检测方法，所述将所述特征向量输入神经网络文本分类模型，得到所述神经网络文本分类模型输出的分类结果，包括：

14、基于所述多头注意力机制层，对所述特征向量进行特征分解，得到所述待检测文本的文本细粒度特征数据以及所述待检测文本的注意力分数；

15、基于所述n-gram层，对所述文本细粒度特征数据以及所述注意力分数进行目标处理，提取所述文本细粒度特征数据的n-gram特征，所述目标处理包括多尺度卷积操作、激活函数操作和拼接输出操作；

16、基于所述初级胶囊层，将提取到的n-gram特征包装处理成胶囊形式向量；

17、基于所述深度胶囊层，对所述胶囊形式向量进行深层特征提取，得到深层特征结果；

18、基于所述主胶囊层，对所述深层特征结果进行进一步的细粒度文本特征提取，得到胶囊结果；基于所述全连接胶囊层，对所述胶囊结果进行分类，得到所述神经网络文本分类模型输出的分类结果。

19、根据本专利技术提供的一种文本的隐私政策合规检测方法，还包括：

20、基于自适应动态路由算法，对初始自然语言处理模型以及初始神经网络文本分类模型进行交叉迭代训练，直到所述初始自然语言处理模型以及初始神经网络文本分类模型收敛，以得到所述自然语言处理模型以及所述神经网络文本分类模型。

21、本专利技术还提供一种文本的隐私政策合规检测系统，包括如下模块：

22、语义信息提取模块，用于获取待检测文本，并基于自然语言处理模型，对所述待检测文本进行上下文语义信息提取，得到所述自然语言处理模型输出的包含文本上下文语义信息的特征向量，所述自然语言处理模型是基于隐私政策数据集中的样本训练得到的；

23、分类模块，用于将所述特征向量输入神经网络文本分类模型，得到所述神经网络文本分类模型输出的分类结果，所述神经网络文本分类模型是基于隐私政策数据集中的文本样本及其对应的隐私类别标签训练得到的，所述隐私类别标签是基于隐私政策合规规则确定的。

24、本专利技术还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述文本的隐私政策合规检测方法。

25、本专利技术还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述文本的隐私政策合规检测法。

26、本专利技术还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述文本的隐私政策合规检测方法。

27、本专利技术提供的文本的隐私政策合规检测方法及系统，通过自然语言处理模型结合神经网络文本分类模型，可捕捉到待检测文本的上下文信息，具有更优异的学习能力与表达能力，以有效提取待检测文本的特征数据，精准实现了待检测文本的多标签自动化分类。与此同时，将构建的文本分类模型与隐私政策数据集中凝练总结出的隐私政策合规规则相结合，设计出一种基于文本自动化分类的隐私政策合规检测方法，高效精准地实现了隐私政策的自动化合规检测。

本文档来自技高网...

【技术保护点】

1.一种文本的隐私政策合规检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的文本的隐私政策合规检测方法，其特征在于，所述基于自然语言处理模型，对所述待检测文本进行上下文语义信息提取，得到所述自然语言处理模型输出的包含文本上下文语义信息的特征向量，包括：

3.根据权利要求1或2所述的文本的隐私政策合规检测方法，其特征在于，所述自然语言处理模型是基于对RoBERTa模型的最大截断输入长度以及学习率进行调整后构建的；

4.根据权利要求1所述的文本的隐私政策合规检测方法，其特征在于，所述神经网络文本分类模型是基于改进后的胶囊网络确定的；

5.根据权利要求4所述的文本的隐私政策合规检测方法，其特征在于，所述将所述特征向量输入神经网络文本分类模型，得到所述神经网络文本分类模型输出的分类结果，包括：

6.根据权利要求1所述的文本的隐私政策合规检测方法，其特征在于，还包括：

7.一种文本的隐私政策合规检测系统，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文本的隐私政策合规检测方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文本的隐私政策合规检测方法。

...

【技术特征摘要】

1.一种文本的隐私政策合规检测方法，其特征在于，所述方法包括：

3.根据权利要求1或2所述的文本的隐私政策合规检测方法，其特征在于，所述自然语言处理模型是基于对roberta模型的最大截断输入长度以及学习率进行调整后构建的；

4.根据权利要求1所述的文本的隐私政策合规检测方法，其特征在于，所述神经网络文本分类模型是基于改进后的胶囊网络确定的；

5.根据权利要求4所述的文本的隐私政策合规检测方法，其特征在于，所述将所述特征向量输入神经网络文本分类模型，得到所述神经...

【专利技术属性】
技术研发人员：牛犇，李铂浩，侯雨桥，李凤华，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人