基于大数据的数据检测方法、设备及计算机可读存储介质技术

技术编号:29527297 阅读:17 留言:0更新日期:2021-08-03 15:13
本发明专利技术实施方式提供了基于大数据的数据检测方法、电子设备及计算机可读存储介质,涉及计算机应用技术领域。其中,数据检测方法包括:依据文本中的关键词构建图节点;基于所述关键词之间的关联关系数据构建所述图节点间的边,以生成所述文本的结构图;基于所述结构图生成检测数据发送给检测端,以便于所述检测端基于所述检测数据以及检测模板检测所述文本的风险等级。本发明专利技术所提供的方法将文本内容映射到图空间来表征数据的内容和关联,提升了形变数据的检测精度。

【技术实现步骤摘要】
基于大数据的数据检测方法、设备及计算机可读存储介质
本专利技术涉及计算机应用
,更为具体而言,涉及数据检测方法、电子设备以及计算机可读存储介质。
技术介绍
随着物联网和第五代移动通信技术的发展,边缘网络中产生了大量的来自用户的数据。数据已经渗透到工作生活的每一个领域,成为一种重要的生产要素。通过对这些数据进行分析和处理,可以进一步挖掘数据所蕴含的信息,从而提升网络中应用和服务的质量。而近年来,随着人工智能和移动边缘计算的发展,一系列建立在对用户数据进行分析挖掘基础之上的新兴应用如用户推荐、智能交通流量预测等也取得了蓬勃发展。然而,对大量的来自用户数据进行处理的同时,对用户的数据安全及隐私也提出了严重的挑战。而近年来,政府机密文件、企业商业机密、用户个人信息等敏感的隐私数据泄露事件层出不穷,根据IBM在2019年所发布的“数据泄露成本报告”,数据泄露所造成的平均损失约为3.92百万美元。现有的数据泄露检测往往基于内容本身进行展开。然而,当面对复杂的形变数据时,现有的方法难以进行有效的数据泄露检测。
技术实现思路
本专利技术实施方式的目的在于提供数据检测方法、电子设备以及计算机可读存储介质,以实现现有技术中所存在的上述问题。具体技术方案如下:在本专利技术实施的一方面,提供了一种数据检测方法。具体地,所述方法包括:依据文本中的关键词构建图节点;基于所述关键词之间的关联关系数据构建所述图节点间的边,以生成所述文本的结构图;基于所述结构图生成检测数据发送给检测端,以便于所述检测端基于所述检测数据以及检测模板检测所述文本的风险等级。在本专利技术实施的又一方面,还提供了一种电子设备。具体地,所述电子设备包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述数据检测方法。在本专利技术实施的又一方面,还提供了一种计算机可读存储介质。具体地,所述计算机可读存储介质中存储有计算机程序,该程序被处理器执行时实现上述数据检测方法。本专利技术实施方式提供的数据检测方法、电子设备以及计算机可读存储介质,基于文本中的关键词以及关键词之间的关联关系生成该文本的结构图,并根据结构图检测该文本的风险等级,因此,本专利技术实施方式将文本内容映射到图空间来表征数据的内容和关联,不仅能够基于文本的内容还能够基于内容之间的关联关系进行数据检测,提升了形变数据的检测精度。附图说明为了更清楚地说明本专利技术实施方式的技术方案,下面将对实施方式描述中所需要使用的附图作一简单的介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本专利技术实施方式1的数据检测方法的流程图;图2是根据本专利技术实施方式2的数据检测方法的流程图;图3是根据本专利技术实施方式3的数据检测方法的流程图;图4是根据本专利技术实施方式4的数据检测方法的流程图;图5是根据本专利技术实施方式的一种电子设备的结构示意图。具体实施方式以下结合附图和具体实施方式对本专利技术的各个方面进行详细阐述。其中,在本专利技术的各个具体实施方式中,众所周知的操作过程、程序模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且,所描述的特征、架构或功能可在一个或一个以上实施例中以任何方式组合。此外,本领域技术人员应当理解,下述的各种实施方式只用于举例说明,而非用于限制本专利技术的保护范围。本领域的技术人员还可以容易理解,本文所述和附图所示的各实施方式中的程序模块、单元或步骤可以按多种不同配置进行组合和设计。对于未在本说明书中进行具体说明的技术术语,除非另有特定说明,都应以本领域最宽泛的意思进行解释。在本专利技术的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的标号如S10、S11等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。下面将结合附图,对本专利技术实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本专利技术的一部分实施方式,而不是全部的实施方式。基于本专利技术中的实施方式,本领域技术人员在没有付出创造性劳动的前提下所获得的所有其他实施方式,都属于本专利技术保护的范围。【实施方式1】图1是根据本专利技术方法实施方式1的数据检测方法的流程图。参见图1,在本实施方式中,所述方法包括:S110:依据文本中的关键词构建图节点。在本实施方式中,可以从文本中抽取多个关键词,针对每个关键词建立一个图节点。S120:基于所述关键词之间的关联关系数据构建所述图节点间的边,以生成所述文本的结构图。在本实施方式中,该结构图例如以G={V,E}的形式存在,其中,V是节点(关键词项)的集合,每一个节点都有一个节点编码和一个节点值,其中,一个节点编码仅能标记一个节点,并且一个节点仅需一个节点编码标记,节点值例如为关键词的文本值(用于表征关键词的内容,例如关键词的字符串,如“银行”,或者,关键词的ASCII码),也可以是关键词的其他属性信息;E是边的集合(一条边代表所连接的两个节点之间存在关联关系,并且可以基于边的属性表征两个节点之间的关联程度,例如,可以将边设定为带权边,以边的权重值表征两个关键词项的关联度,也可以通过边的长度表征两个关键词项的关联度);针对任意两个关键词项都分别确定二者之间的关联关系数据,并基于该关联关系数据和设定阈值判断是否在对应的两个节点之间建立边,以及,若建立边,则进一步基于该关联关系数据确定边的属性(权重值或者长度)。S130:基于所述结构图生成检测数据,将该检测数据发送给检测端,以便于所述检测端基于所述检测数据以及检测模板检测所述文本的风险等级。在本实施方式中,可以直接将待检测文本的结构图作为检测数据,也可以对该结构图进行一定的数据处理,并将经处理后的图作为检测数据。在本实施方式中,文本的风险等级例如包括:敏感和非敏感。在本实施方式中,数据持有者侧可以预先构建样本文本(已知的敏感文本)的结构图,并将其作为检测模板发送给检测端,以便于检测端基于待检测文本的结构图以及检测模板之间的图形相似度(例如,通过图卷积神经网络算法或基于注意力机制的图神经网络算法计算图形相似度),判断待检测文本是否属于敏感文本(例如,可以将图形相似度与设定阈值进行比较,以划分待检测文本的风险等级)。在本实施方式中,基于文本中的关键词以及关键词之间的关联关系生成该文本的结构图本文档来自技高网...

【技术保护点】
1.一种数据检测方法,其特征在于,所述方法包括:/n依据文本中的关键词构建图节点;/n基于所述关键词之间的关联关系数据构建所述图节点间的边,以生成所述文本的结构图;/n基于所述结构图生成检测数据发送给检测端,以便于所述检测端基于所述检测数据以及检测模板检测所述文本的风险等级。/n

【技术特征摘要】
1.一种数据检测方法,其特征在于,所述方法包括:
依据文本中的关键词构建图节点;
基于所述关键词之间的关联关系数据构建所述图节点间的边,以生成所述文本的结构图;
基于所述结构图生成检测数据发送给检测端,以便于所述检测端基于所述检测数据以及检测模板检测所述文本的风险等级。


2.根据权利要求1所述的方法,其特征在于,所述结构图中图节点的节点值为所述关键词的文本值,相应地,基于所述结构图生成检测数据包括:
针对所述结构图中的各图节点,分别计算所述图节点的权重值;
将所述结构图中各图节点的节点值替换为所述权重值,以生成所述结构图的掩蔽图作为所述检测数据。


3.根据权利要求1所述的方法,其特征在于,在基于所述关键词之间的关联关系数据构建所述图节点间的边之前,所述方法还包括:
计算所述关键词之间的语义相似性等分;
识别所述关键词之间的文本距离;
根据所述语义相似性得分和所述文本距离,计算所述关键词之间的关联度作为所述关联关系数据。


4.根据权利要求1所述的方法,其特征在于,在依据文本中的关键词构建图节点之前,所述方法还包括:
对所述文本进行预处理以筛选出所述文本的有效词项;
针对各所述有效词项,分别执行以下处理:计算所述有效词项的敏感度权重,计算所述有效词项在所述文本中的词频,以及,基于所述敏感度权重以及所述词频,计算所述有效词项的关键敏感度;
确定所述关键敏感度大于设定阈值的有效词项为所述关键词。


5.根据权利要求4所述的方法,其特征在于,计算所述有效词项的敏感度权重包括:
获取敏感文件集和非敏感文件集;
按照以下公式计算所述有效词项的敏感度权重:
...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:武汉红火蚁智能科技有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1