用于大数据统计分析的数据处理方法及系统技术方案

技术编号:37985291 阅读:13 留言:0更新日期:2023-06-30 10:00
本发明专利技术公开了一种用于大数据统计分析的数据处理方法及系统,其获取访客所需访问和调取的资料的文本描述,以及,所述访客的身份标签信息;使用用于自然语言处理的语义理解模型分别对所述访客所需访问和调取的资料的文本描述和所述访客的身份标签信息进行自适应语义理解,并基于此对访客身份信息与其所要访问和调取的资料之间的适配度进行评估,以确定是否为访客开放资料访问和调用权限。这样,可以在进行大数据分析之前,确保是否适宜给予数据访问和调取的权限。访问和调取的权限。访问和调取的权限。

【技术实现步骤摘要】
用于大数据统计分析的数据处理方法及系统


[0001]本申请涉及智能化数据处理
,且更为具体地,涉及一种用于大数据统计分析的数据处理方法及系统。

技术介绍

[0002]企业在数字化转型中会沉淀诸多数据,例如,例如,访客信息、员工操作日志、各类办公文档等等。对这些数据进行总体统计、发展统计以及业务量统计,可以为企业的决策层和高级管理人员的分析决策提供数据依据。
[0003]数据安全一直是数字化企业面临的挑战,近年来数据处理系统面临的威胁远不止几个心怀不轨的黑客,可能还有人员配置完善的专家团队。保障数据安全是用于大数据统计分析的数据处理系统的必要前提,以防止大数据被泄露。
[0004]因此,期待一种用于大数据统计分析的数据处理方法,其能够在进行大数据统计分析前,对访客进行风险评估以确保数据安全。

技术实现思路

[0005]为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种用于大数据统计分析的数据处理方法及系统,其获取访客所需访问和调取的资料的文本描述,以及,所述访客的身份标签信息;使用用于自然语言处理的语义理解模型分别对所述访客所需访问和调取的资料的文本描述和所述访客的身份标签信息进行自适应语义理解,并基于此对访客身份信息与其所要访问和调取的资料之间的适配度进行评估,以确定是否为访客开放资料访问和调用权限。这样,可以在进行大数据分析之前,确保是否适宜给予数据访问和调取的权限。
[0006]根据本申请的一个方面,提供了一种用于大数据统计分析的数据处理方法,其包括:获取访客所需访问和调取的资料的文本描述,以及,所述访客的身份标签信息;将所述访客所需访问和调取的资料的文本描述进行分词处理后通过包含嵌入层的语义编码器以得到资源描述语义特征向量;将所述访客的身份标签信息进行分词处理后通过所述包含嵌入层的语义编码器以得到身份标签语义特征向量;计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵;以及将所述分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示是否为访客开放资料访问和调用权限。
[0007]在上述用于大数据统计分析的数据处理方法中,所述将所述访客所需访问和调取的资料的文本描述进行分词处理后通过包含嵌入层的语义编码器以得到资源描述语义特征向量,包括:对所述访客所需访问和调取的资料的文本描述进行分词处理以将所述访客
所需访问和调取的资料的文本描述转化为由多个词组成的词序列;使用所述语义编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列;使用所述包含嵌入层的语义编码器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个语义特征向量;以及,将所述多个语义特征向量进行级联以得到所述资源描述语义特征向量。
[0008]在上述用于大数据统计分析的数据处理方法中,所述使用所述包含嵌入层的语义编码器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个语义特征向量,包括:将所述词向量的序列进行一维排列以得到词特征向量;计算所述词特征向量与所述词向量的序列中各个词向量的转置向量之间的乘积以得到多个自注意力关联矩阵;分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;以及,分别以所述多个概率值中各个概率值作为权重对所述词向量的序列中各个词向量进行加权以得到所述多个语义特征向量。
[0009]在上述用于大数据统计分析的数据处理方法中,所述计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵,包括:以如下公式计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵;其中,所述公式为:其中,表示所述资源描述语义特征向量,表示所述身份标签语义特征向量,表示所述分类特征矩阵,表示矩阵相乘。
[0010]在上述用于大数据统计分析的数据处理方法中,所述将所述分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示是否为访客开放资料访问和调用权限,包括:将所述分类特征矩阵进行矩阵展开以得到分类特征向量;对所述分类特征向量的特征分布进行结构模糊校正以得到校正后分类特征向量;以及,将所述校正后分类特征向量通过所述分类器以得到所述分类结果。
[0011]在上述用于大数据统计分析的数据处理方法中,所述将所述分类特征矩阵进行矩阵展开以得到分类特征向量,包括:将所述分类特征矩阵按照行向量展开为所述分类特征向量。
[0012]在上述用于大数据统计分析的数据处理方法中,所述对所述分类特征向量的特征分布进行结构模糊校正以得到校正后分类特征向量,包括:以如下公式对所述分类特征向量的特征分布进行结构模糊校正以得到校正后分类特征向量;其中,所述公式为:其中,表示校正前分类特征向量,表示校正后分类特征向量,表示校正前分类特征向量的转置向量,表示校正前分类特征向量的二范数的平方,表示校正前分类特征向量的各特征值按大小次序排列的有序向量,且校正前分类特征向量是列向量形式。
[0013]在上述用于大数据统计分析的数据处理方法中,所述将所述校正后分类特征向量通过所述分类器以得到所述分类结果,包括:使用所述分类器的多个全连接层对所述校正
后分类特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
[0014]根据本申请的另一个方面,提供了一种用于大数据统计分析的数据处理系统,其包括:信息获取模块,用于获取访客所需访问和调取的资料的文本描述,以及,所述访客的身份标签信息;资源描述语义编码模块,用于将所述访客所需访问和调取的资料的文本描述进行分词处理后通过包含嵌入层的语义编码器以得到资源描述语义特征向量;身份标签语义编码模块,用于将所述访客的身份标签信息进行分词处理后通过所述包含嵌入层的语义编码器以得到身份标签语义特征向量;转移矩阵计算模块,用于计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵;以及权限处理模块,用于将所述分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示是否为访客开放资料访问和调用权限。
[0015]与现有技术相比,本申请提供的用于大数据统计分析的数据处理方法及系统,其获取访客所需访问和调取的资料的文本描述,以及,所述访客的身份标签信息;使用用于自然语言处理的语义理解模型分别对所述访客所需访问和调取的资料的文本描述和所述访客的身份标签信息进行自适应语义理解,并基于此对访客身份信息与其所要访问和调取的资料之间的适配度进行评估,以确定是否为访客开放资料访问和调用权限。这样,可以在进行大数据分析之前,确保是否适宜给予数据访问和调取的权限。
附图说明
[0016]通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于大数据统计分析的数据处理方法,其特征在于,包括:获取访客所需访问和调取的资料的文本描述,以及,所述访客的身份标签信息;将所述访客所需访问和调取的资料的文本描述进行分词处理后通过包含嵌入层的语义编码器以得到资源描述语义特征向量;将所述访客的身份标签信息进行分词处理后通过所述包含嵌入层的语义编码器以得到身份标签语义特征向量;计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵;以及将所述分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示是否为访客开放资料访问和调用权限。2.根据权利要求1所述的用于大数据统计分析的数据处理方法,其特征在于,所述将所述访客所需访问和调取的资料的文本描述进行分词处理后通过包含嵌入层的语义编码器以得到资源描述语义特征向量,包括:对所述访客所需访问和调取的资料的文本描述进行分词处理以将所述访客所需访问和调取的资料的文本描述转化为由多个词组成的词序列;使用所述语义编码器的嵌入层将所述词序列中各个词映射到词向量以获得词向量的序列;使用所述包含嵌入层的语义编码器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个语义特征向量;以及将所述多个语义特征向量进行级联以得到所述资源描述语义特征向量。3.根据权利要求2所述的用于大数据统计分析的数据处理方法,其特征在于,所述使用所述包含嵌入层的语义编码器对所述词向量的序列进行基于全局的上下文语义编码以获得所述多个语义特征向量,包括:将所述词向量的序列进行一维排列以得到词特征向量;计算所述词特征向量与所述词向量的序列中各个词向量的转置向量之间的乘积以得到多个自注意力关联矩阵;分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;以及分别以所述多个概率值中各个概率值作为权重对所述词向量的序列中各个词向量进行加权以得到所述多个语义特征向量。4.根据权利要求3所述的用于大数据统计分析的数据处理方法,其特征在于,所述计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵,包括:以如下公式计算所述资源描述语义特征向量相对于所述身份标签语义特征向量的转移矩阵作为分类特征矩阵;其中,所述公式为:
其中,表示所述资源描述语义特征向量,表示所述身份标签语义特征向量,表示所述分类特征矩阵,表示矩阵相乘。5.根据权利要求4所述的用于大数据统计分析的数据处理方法,其特征在于,所述将所述分类特征矩阵通过分类器以得到分类结果,所述分类结果用于表示是否为访客开放资料访问和调用权限,包括:将所述分类特征矩阵...

【专利技术属性】
技术研发人员:沈敏杰庞程潇
申请(专利权)人:杭州图灵数科信息技术有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1