一种主体识别方法及相关装置制造方法及图纸

技术编号:31799004 阅读:14 留言:0更新日期:2022-01-08 10:59
本申请公开了一种主体识别方法,包括:基于主体信息特征对获取的代码资产进行主体识别,得到主体识别结果;其中,所述主体信息特征包括媒体数据特征和/或字符串数据特征。通过主体信息特征对代码资产进行主体识别,且该主体信息特征包括媒体数据特征和/或字符串数据特征,也就是从媒体识别和/或字符识别角度对代码资产中的主体实现自动化识别,提高识别效率的同时,保证数据的安全性,及时发现泄漏问题,提高对于数据的泄漏监控的效果。本申请还公开了一种主体识别装置、服务器及计算机可读存储介质,具有以上有益效果。具有以上有益效果。具有以上有益效果。

【技术实现步骤摘要】
一种主体识别方法及相关装置


[0001]本申请涉及计算机
,特别涉及一种主体识别方法、主体识别装置、服务器及计算机可读存储介质。

技术介绍

[0002]随着信息技术的不断发展,组织或个人的数据资产越来越重要。在实际生产中,该数据资产存在被泄漏到公共平台的风险,为数据资产带来安全隐患和经济损失。
[0003]相关技术中,为了提高安全性,通常对不同的数据来源进行泄漏监控,也即是对不同的数据来源的数据进行主体识别,当识别出目标主体时进行泄漏提示。其中,从互联网监测的角度出发,通过SaaS(Software as a Service,软件服务化)订阅方式对代码托管网站的数据进行泄漏监控。但是,现有的泄漏监控方案需要人工进行检测,重度依赖人为的主观审查,自动化程度低,同时容易因运营人员疲劳而造成漏报现象。此外,对主体进行识别的效率较低,无法及时挽回泄漏损失。
[0004]因此,如何提高对数据进行主体识别的效率,提高对数据进行泄漏监控的效果是本领域技术人员关注的重点问题。

技术实现思路

[0005]本申请的目的是提供一种主体识别方法、主体识别装置、服务器及计算机可读存储介质,以便对代码资产进行主体识别,提高数据的安全性,及时发现泄漏问题,提高监控效果。
[0006]为解决上述技术问题,本申请提供一种主体识别方法,包括:
[0007]基于主体信息特征对获取的代码资产进行主体识别,得到主体识别结果;其中,所述主体信息特征包括媒体数据特征和/或字符串数据特征。
[0008]可选的,基于主体信息特征对获取的代码资产进行主体识别之前,还包括:
[0009]从数据库获取原始数据;
[0010]根据版权关键词从所述原始数据中筛选出所述代码资产。
[0011]可选的,从数据库获取原始数据,包括:
[0012]通过网络爬虫从代码托管网站数据库和/或代码缓存网站数据库获取代码数据,并作为所述原始数据。
[0013]可选的,基于主体信息特征对获取的代码资产进行主体识别,得到主体识别结果,包括:
[0014]采用机器学习模型基于所述主体信息特征对所述代码资产中的多媒体数据和/或字符串数据进行主体识别,得到所述主体识别结果。
[0015]可选的,采用机器学习模型基于所述主体信息特征对所述代码资产中的多媒体数据和/或字符串数据进行主体识别,得到所述主体识别结果,包括:
[0016]采用所述数据识别模型基于所述主体信息特征对所述代码资产中的多媒体数据
和/或字符串数据进行实体识别,得到实体识别结果;
[0017]对所述实体识别结果进行主体名称补充处理和/或去重处理,得到所述主体识别结果。
[0018]可选的,所述字符串数据特征包括组织机构专有名词特征,若采用所述字符串数据,所述采用机器学习模型基于所述主体信息特征对所述代码资产中的字符串数据进行主体识别,得到所述主体识别结果,包括:
[0019]基于所述组织机构专有名词特征对所述字符串数据进行序列标注,得到多个已标注序列;
[0020]将所述多个已标注序列中标注为组织机构的序列作为所述主体识别结果。
[0021]可选的,所述媒体数据特征包括版权图像特征,若采用所述多媒体数据,所述采用机器学习模型基于所述主体信息特征对所述代码资产中的多媒体数据进行主体识别,得到所述主体识别结果,包括:
[0022]对所述多媒体数据进行图像提取,得到多个待识别图像;
[0023]基于所述版权图像特征对所述多个待识别图像进行分类,得到目标版权图像;
[0024]对所述目标版权图像进行文本识别,得到所述主体识别结果。
[0025]本申请还提供一种主体识别装置,包括:
[0026]识别模块,用于基于主体信息特征对获取的代码资产进行主体识别,得到主体识别结果;其中,所述主体信息特征包括媒体数据特征和/或字符串数据特征。
[0027]本申请还提供一种服务器,包括:
[0028]存储器,用于存储计算机程序;
[0029]处理器,用于执行所述计算机程序时实现如上所述的主体识别方法的步骤。
[0030]本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的主体识别方法的步骤。
[0031]本申请所提供的一种主体识别方法,包括:基于主体信息特征对获取的代码资产进行主体识别,得到主体识别结果;其中,所述主体信息特征包括媒体数据特征和/或字符串数据特征。
[0032]通过主体信息特征对代码资产进行主体识别,且该主体信息特征包括媒体数据特征和/或字符串数据特征,也就是从媒体识别和/或字符识别角度对代码资产中的主体实现自动化识别,提高识别效率的同时,保证数据的安全性,及时发现泄漏问题,提高对于数据的泄漏监控的效果。
[0033]本申请还提供一种主体识别装置、服务器及计算机可读存储介质,具有以上有益效果,在此不做赘述。
附图说明
[0034]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0035]图1为本申请实施例所提供的第一种主体识别方法的流程图;
[0036]图2为本申请实施例所提供的第二种主体识别方法的流程图;
[0037]图3为本申请实施例所提供的第三种主体识别方法的流程图;
[0038]图4为本申请实施例所提供的第四种主体识别方法的流程图;
[0039]图5为本申请实施例所提供的第五种主体识别方法的流程图;
[0040]图6为本申请实施例所提供的一种主体识别装置的结构示意图。
具体实施方式
[0041]本申请的核心是提供一种主体识别方法、主体识别装置、服务器及计算机可读存储介质,以便对代码资产进行主体识别,提高数据的安全性,及时发现泄漏问题,提高监控效果。
[0042]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0043]相关技术中,为了提高安全性,通常对不同的数据来源进行泄漏监控,也即是对不同的数据来源的数据进行主体识别,当识别出目标主体时进行泄漏提示。其中,从互联网监测的角度出发,通过SaaS(Software as a Service,软件服务化)订阅方式对代码托管网站的数据进行泄漏监控。但是,现有的泄漏监控方案需要人工进行检测,重度依赖人为的主观审查,自动化程度低,同时容易因运营本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种主体识别方法,其特征在于,包括:基于主体信息特征对获取的代码资产进行主体识别,得到主体识别结果;其中,所述主体信息特征包括媒体数据特征和/或字符串数据特征。2.根据权利要求1所述的主体识别方法,其特征在于,基于主体信息特征对获取的代码资产进行主体识别之前,还包括:从数据库获取原始数据;根据版权关键词从所述原始数据中筛选出所述代码资产。3.根据权利要求2所述的主体识别方法,其特征在于,从数据库获取原始数据,包括:通过网络爬虫从代码托管网站数据库和/或代码缓存网站数据库获取代码数据,并作为所述原始数据。4.根据权利要求1至3任一项所述的主体识别方法,其特征在于,基于主体信息特征对获取的代码资产进行主体识别,得到主体识别结果,包括:采用机器学习模型基于所述主体信息特征对所述代码资产中的多媒体数据和/或字符串数据进行主体识别,得到所述主体识别结果。5.根据权利要求4所述的主体识别方法,其特征在于,采用机器学习模型基于所述主体信息特征对所述代码资产中的多媒体数据和/或字符串数据进行主体识别,得到所述主体识别结果,包括:采用机器学习模型基于所述主体信息特征对所述代码资产中的多媒体数据和/或字符串数据进行实体识别,得到实体识别结果;对所述实体识别结果进行主体名称补充处理和/或去重处理,得到所述主体识别结果。6.根据权利要求4所述的主体识别方法,其特征在于,所述字符串数据特征包括组织...

【专利技术属性】
技术研发人员:李峰
申请(专利权)人:深信服科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1