本申请提供一种非结构化数据溯源方法、装置及电子设备,所述方法包括:创建匹配信息;获取网络流量;对非结构化数据执行还原处理,以得到待匹配文件;从待匹配文件中搜索标记数据,若待匹配文件中包括标记数据,则为标记数据添加数据元素标签,将待匹配文件设置为标记文件;存储标记文件的第一溯源信息;根据第一溯源字段执行搜索,以得到溯源标记数据或溯源标签,以及获取第一溯源文件。所述方法根据匹配信息对非结构化数据中相应的溯源数据进行标记;以及将非结构化数据中包括溯源数据的文件设置为标记文件并存储;在溯源阶段通过溯源字段执行搜索,得到包括溯源数据的标记文件,提高非结构化数据溯源的效率、实时性和全面性。
【技术实现步骤摘要】
本申请实施例涉及网络安全,尤其涉及一种非结构化数据溯源方法、装置及电子设备。
技术介绍
1、网络数据具有保密性,而对于非结构化数据的溯源是防止数据泄露的关键手段,可以提高数据的完整性和可信度。非结构化数据包括文本、图像、声音和视频等,具有格式多样、内容复杂和数据量庞大的特点。数据溯源技术通过追踪数据的来源、处理过程及变换历史,提供数据的完整链条,降低数据泄露的概率。
2、非结构化数据溯源方法包括基于标签的数据溯源和基于计算流程的数据溯源。基于标签的数据溯源通过在数据生成或处理过程中添加标签来记录数据的来源和变换过程。基于计算流程的数据溯源则通过记录数据在计算流程中的变换,包括输入数据、计算工具、参数设置以及输出结果等,来构建数据的完整溯源链条。
3、然而,基于标签和基于计算流程的数据溯源方法均存在一定缺陷。由于非结构化数据的复杂性和多样性,数据溯源的过程需要在数据生成或处理后进行,且上述方法的溯源手段仅为通过标签或者通过流程进行搜索,降低了数据溯源的实时性和全面性。
技术实现思路
1、本申请提供一种非结构化数据溯源方法、装置及电子设备,以提高对于非结构化数据溯源的实时性和全面性。
2、第一方面,本申请提供一种非结构化数据溯源方法,包括:
3、创建匹配信息,所述匹配信息包括数据元素标签和数据匹配规则;
4、获取网络流量,所述网络流量包括非结构化数据;
5、对所述非结构化数据执行还原处理,以得到待匹配文件;
6、根据所述数据匹配规则从所述待匹配文件中搜索标记数据,若所述待匹配文件中包括所述标记数据,则为所述标记数据添加与所述数据匹配规则相对应的所述数据元素标签,以及将所述待匹配文件设置为标记文件;
7、存储所述标记文件的第一溯源信息,所述第一溯源信息包括所述标记数据、所述数据元素标签、文件基本信息、文件流转信息中的至少一个;
8、输入第一溯源字段,根据所述第一溯源字段执行搜索,以得到溯源标记数据或溯源标签,所述溯源标记数据为与所述第一溯源字段相同的所述标记数据,所述溯源标签为与所述第一溯源字段相同的所述数据元素标签,以及获取第一溯源文件,所述第一溯源文件为所述第一溯源信息中包括所述溯源标记数据或所述溯源标签的文件。
9、所述方法首先创建用于标记溯源数据的匹配信息,并根据匹配信息对非结构化数据中相应的溯源数据进行标记;以及将非结构化数据中包括溯源数据的文件设置为标记文件并存储;在溯源阶段通过溯源字段执行搜索,得到包括溯源数据的标记文件,提高非结构化数据溯源的效率、实时性和全面性。
10、在第一方面的一种可实现方式中,所述创建匹配信息,包括:
11、获取待溯源数据;
12、确定所述待溯源数据的分类名称,以及,将所述分类名称存储为所述数据元素标签;
13、根据所述待溯源数据的内容设置所述数据匹配规则;
14、将相同的所述待溯源数据的所述数据元素标签和所述数据匹配规则绑定,以得到所述匹配信息。
15、在第一方面的一种可实现方式中,所述根据所述待溯源数据的内容设置所述数据匹配规则,包括:
16、获取所述待溯源数据的数据类型,所述数据类型包括文本类型、数字类型和复合类型;
17、对所述文本类型的待溯源数据设置表示所述待溯源数据内容的关键字,以得到所述数据匹配规则;
18、对所述数字类型的待溯源数据设置表示所述待溯源数据内容的正则表达式,以得到所述数据匹配规则;
19、对所述复合类型的待溯源数据设置表示所述待溯源数据内容的关键字与正则表达式的组合,以得到所述数据匹配规则。
20、在第一方面的一种可实现方式中,所述对所述非结构化数据执行还原处理,以得到待匹配文件,包括:
21、获取所述非结构化数据的文件类型,所述文件类型包括文本类型、表格类型和图像类型;
22、根据所述文件类型确定文件处理工具,其中,选择文本处理工具处理所述文本类型的非结构化数据,选择表格处理工具处理所述表格类型的非结构化数据,选择图像处理工具处理所述图像类型的非结构化数据;
23、采用所述文件处理工具对所述非结构化数据执行读取,以得到所述待匹配文件。
24、在第一方面的一种可实现方式中,所述方法还包括:
25、根据所述数据匹配规则从所述待匹配文件中搜索所述标记数据;
26、若所述待匹配文件中不包括所述标记数据,则将所述待匹配文件存储为未标记文件;
27、存储所述未标记文件的第二溯源信息,所述第二溯源信息包括文件基本信息、文件流转信息中的至少一个。
28、在第一方面的一种可实现方式中,所述文件基本信息包括文件名称,所述方法还包括:
29、输入第二溯源字段,根据所述第二溯源字段执行搜索,以得到溯源名称,所述溯源名称为与所述第二溯源字段相同的所述待匹配文件的文件名称;
30、获取第二溯源文件,所述第二溯源文件为文件名称与所述第二溯源字段相同的所述待匹配文件。
31、在第一方面的一种可实现方式中,所述文件基本信息包括文件哈希值,所述方法还包括:
32、获取所述待匹配文件的哈希值;
33、将所述哈希值相同的待匹配文件的文件基本信息和文件流转信息存储为同一个文件画像。
34、在第一方面的一种可实现方式中,所述方法还包括:
35、获取所述第一溯源文件或所述第二溯源文件的文件流转信息;
36、根据所述文件流转信息获取所述第一溯源文件或所述第二溯源文件的流转路径。
37、第二方面,本申请还提供一种非结构化数据溯源装置,包括:
38、匹配信息创建模块,被配置为:创建匹配信息,所述匹配信息包括数据元素标签和数据匹配规则;
39、网络流量获取模块,被配置为:获取网络流量,所述网络流量包括非结构化数据;
40、文件还原模块,被配置为:对所述非结构化数据执行还原处理,以得到待匹配文件;
41、标记文件获取模块,被配置为:根据所述数据匹配规则从所述待匹配文件中搜索标记数据,若所述待匹配文件中包括所述标记数据,则为所述标记数据添加与所述数据匹配规则相对应的所述数据元素标签,以及将所述待匹配文件设置为标记文件;
42、第一溯源信息存储模块,被配置为:存储所述标记文件的第一溯源信息,所述第一溯源信息包括所述标记数据、所述数据元素标签、文件基本信息、文件流转信息中的至少一个;
43、溯源模块,被配置为:输入第一溯源字段,根据所述第一溯源字段执行搜索,以得到溯源标记数据或溯源标签,所述溯源标记数据为与所述第一溯源字段相同的所述标记数据,所述溯源标签为与所述第一溯源字段相同的所述数据元素标签,以及获取第一溯源文件,所述第一溯源文件为所述第一溯源信息中包括所述溯源标记数据或所述溯源标签本文档来自技高网
...
【技术保护点】
1.一种非结构化数据溯源方法,其特征在于,包括:
2.根据权利要求1所述的非结构化数据溯源方法,其特征在于,所述创建匹配信息,包括:
3.根据权利要求2所述的非结构化数据溯源方法,其特征在于,所述根据所述待溯源数据的内容设置所述数据匹配规则,包括:
4.根据权利要求1所述的非结构化数据溯源方法,其特征在于,所述对所述非结构化数据执行还原处理,以得到待匹配文件,包括:
5.根据权利要求1所述的非结构化数据溯源方法,其特征在于,所述方法还包括:
6.根据权利要求5所述的非结构化数据溯源方法,其特征在于,所述文件基本信息包括文件名称,所述方法还包括:
7.根据权利要求6所述的非结构化数据溯源方法,其特征在于,所述文件基本信息包括文件哈希值,所述方法还包括:
8.根据权利要求1或6所述的非结构化数据溯源方法,其特征在于,所述方法还包括:
9.一种非结构化数据溯源装置,其特征在于,包括:
10.一种电子设备,其特征在于,包括:
【技术特征摘要】
1.一种非结构化数据溯源方法,其特征在于,包括:
2.根据权利要求1所述的非结构化数据溯源方法,其特征在于,所述创建匹配信息,包括:
3.根据权利要求2所述的非结构化数据溯源方法,其特征在于,所述根据所述待溯源数据的内容设置所述数据匹配规则,包括:
4.根据权利要求1所述的非结构化数据溯源方法,其特征在于,所述对所述非结构化数据执行还原处理,以得到待匹配文件,包括:
5.根据权利要求1所述的非结构化数据溯源方法,其特...
【专利技术属性】
技术研发人员:王宏,
申请(专利权)人:武汉思普崚技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。