一种数据处理方法和装置制造方法及图纸

技术编号:29615232 阅读:10 留言:0更新日期:2021-08-10 18:30
本发明专利技术公开了一种数据处理方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取多个待处理数据,根据分词词典对多个待处理数据进行分词处理,得到多个分词集合;对多个分词集合进行加权处理,以确定多个关键词集合;对多个关键词集合进行聚类处理,得到至少一个类;根据类中包括的关键词,确定类对应的业务类型,根据业务类型对类进行标注处理。该实施方式提升了数据处理的自动化程度,提高了处理效率和处理准确率,降低了人力成本,有效保障了数据安全。

【技术实现步骤摘要】
一种数据处理方法和装置
本专利技术涉及计算机
,尤其涉及一种数据处理方法和装置。
技术介绍
如何在海量数据资源中有效的定义和识别数据资产,对数据进行分类划分,并根据所划分的数据对应的业务类型保障数据资产的安全,是当前数字化转型的企业所面对的一大挑战。现有技术中至少存在如下问题:现有的数据处理方法中,主要以人工的方式对企业已存在的海量数据进行筛选过滤,确定关键数据,继而对其进行保护,存在人力资源消耗大、自动化程度低、处理效率低,准确率低的技术问题。
技术实现思路
有鉴于此,本专利技术实施例提供一种数据处理方法和装置,能够提升数据处理的自动化程度,提高处理效率和处理准确率,降低人力成本,有效保障数据安全。为实现上述目的,根据本专利技术实施例的第一方面,提供了一种数据处理方法,包括:获取多个待处理数据,根据分词词典对多个待处理数据进行分词处理,得到多个分词集合;对多个分词集合进行加权处理,以确定多个关键词集合;对多个关键词集合进行聚类处理,得到至少一个类;根据类中包括的关键词,确定类对应的业务类型,根据业务类型对类进行标注处理。进一步地,对多个分词集合进行加权处理,确定多个关键词集合,还包括:分别对多个分词集合进行加权处理,以确定多个分词集合中的分词对应的分词频率和分词权重;根据分词频率和分词权重确定多个关键词集合。进一步地,对多个关键词集合进行聚类处理,还包括:对多个关键词集合进行向量化处理,并计算向量化处理后的多个关键词集合所对应的向量距离;根据向量距离对多个关键词集合进行聚类处理。进一步地,根据向量距离对多个关键词集合进行聚类处理,还包括:根据向量距离计算多个关键词集合之间的相似度;根据相似度、以及关键词集合中各关键词对应的分词权重,对多个关键词集合进行聚类处理。进一步地,在类为多个的情况下,方法还包括:确定多个关键词集合中包括的关键词分别在多个类中对应的类频率;根据类频率、以及关键词对应的分词频率对多个关键词集合进行更新,并对类进行更新。进一步地,在对多个分词集合进行加权处理的步骤之前,方法还包括:根据过滤词对多个分词集合中包括的分词进行过滤处理。进一步地,在对类进行标注处理的步骤之后,方法还包括:对类中的多个关键词进行特征提取,分别得到类对应的特征向量集合;获取新增待处理数据,确定新增待处理数据对应的特征向量;根据新增待处理数据对应的特征向量、特征向量集合以及相似度阈值确定新增待处理数据对应的类。进一步地,还包括:根据标注处理结果确定类的级别,根据类的级别确定相应的读取策略。根据本专利技术实施例的第二方面,提供了一种数据处理装置,包括:关键词集合确定模块,用于获取多个待处理数据,根据分词词典对多个待处理数据进行分词处理,得到多个分词集合;对多个分词集合进行加权处理,以确定多个关键词集合;聚类模块,用于对多个关键词集合进行聚类处理,得到至少一个类;标注模块,用于根据类中包括的关键词,确定类对应的业务类型,根据业务类型对类进行标注处理。根据本专利技术实施例的第三方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述任一种数据处理方法。根据本专利技术实施例的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述任一种数据处理方法。上述专利技术中的一个实施例具有如下优点或有益效果:因为采用获取多个待处理数据,根据分词词典对多个待处理数据进行分词处理,得到多个分词集合;对多个分词集合进行加权处理,以确定多个关键词集合;对多个关键词集合进行聚类处理,得到至少一个类;根据类中包括的关键词,确定类对应的业务类型,根据业务类型对类进行标注处理的技术手段,所以克服了现有的数据处理方法中,存在的人力资源消耗大、自动化程度低、处理效率低,准确率低的技术问题,进而达到提升数据处理的自动化程度,提高处理效率和处理准确率,降低人力成本,有效保障数据安全的技术效果。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是根据本专利技术第一实施例提供的数据处理方法的主要流程的示意图;图2是根据本专利技术第二实施例提供的数据处理方法的主要流程的示意图;图3是根据本专利技术实施例提供的数据处理装置的主要模块的示意图;图4是本专利技术实施例可以应用于其中的示例性系统架构图;图5是适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是根据本专利技术第一实施例提供的数据处理方法的主要流程的示意图;如图1所示,本专利技术实施例提供的数据处理方法主要包括:步骤S101,获取多个待处理数据,根据分词词典对多个待处理数据进行分词处理,得到多个分词集合;对多个分词集合进行加权处理,以确定多个关键词集合。通过上述设置,对每个待处理数据依次进行分词处理和加权处理,分别得到一个关键词集合,以该关键词集合表征其对应的待处理数据,以便于后续根据关键词集合确定待处理数据所对应的类,进而对其进行标注,以提升数据处理的自动化程度,提高处理效率和处理准确率,降低人力成本,有效保障数据安全。具体地,根据本专利技术实施例,上述对多个分词集合进行加权处理,确定多个关键词集合,还包括:分别对多个分词集合进行加权处理,以确定多个分词集合中的分词对应的分词频率和分词权重;根据分词频率和分词权重确定多个关键词集合。针对每个待处理数据对应的分词集合,根据该分词集合内各分词所对应的分词频率和分词权重,来确定关键词集合,其中,关键词集合中包括至少一个关键词。通过上述设置,有助于精确地确定每个待处理数据对应的关键词集合,进而提高后续数据处理的准确率。进一步地,根据本专利技术实施例,在对多个分词集合进行加权处理的步骤之前,上述方法还包括:根据过滤词对多个分词集合中包括的分词进行过滤处理。通过上述设置,对分词集合内的分词进行过滤,进一步提升了提高了确定关键词集合的效率和准确率。步骤S102,对多个关键词集合进行聚类处理,得到至少一个类。具体地,根据本专利技术实施例,上述对多个关键词集合进行聚类处理,还包括:对多个关键词集合进行向量化处理,并计算向量化处理后的多个关本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取多个待处理数据,根据分词词典对所述多个待处理数据进行分词处理,得到多个分词集合;对所述多个分词集合进行加权处理,以确定多个关键词集合;/n对所述多个关键词集合进行聚类处理,得到至少一个类;/n根据所述类中包括的关键词,确定所述类对应的业务类型,根据所述业务类型对所述类进行标注处理。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取多个待处理数据,根据分词词典对所述多个待处理数据进行分词处理,得到多个分词集合;对所述多个分词集合进行加权处理,以确定多个关键词集合;
对所述多个关键词集合进行聚类处理,得到至少一个类;
根据所述类中包括的关键词,确定所述类对应的业务类型,根据所述业务类型对所述类进行标注处理。


2.根据权利要求1所述的数据处理方法,其特征在于,所述对所述多个分词集合进行加权处理,确定多个关键词集合,还包括:
分别对所述多个分词集合进行加权处理,以确定所述多个分词集合中的分词对应的分词频率和分词权重;
根据所述分词频率和所述分词权重确定多个关键词集合。


3.根据权利要求1所述的数据处理方法,其特征在于,所述对所述多个关键词集合进行聚类处理,还包括:
对所述多个关键词集合进行向量化处理,并计算向量化处理后的多个关键词集合所对应的向量距离;
根据所述向量距离对所述多个关键词集合进行聚类处理。


4.根据权利要求3所述的数据处理方法,其特征在于,所述根据所述向量距离对所述多个关键词集合进行聚类处理,还包括:
根据所述向量距离计算所述多个关键词集合之间的相似度;
根据所述相似度、以及所述关键词集合中各关键词对应的分词权重,对所述多个关键词集合进行聚类处理。


5.根据权利要求3所述的数据处理方法,其特征在于,在所述类为多个的情况下,所述方法还包括:
确定所述多个关键词集合中包括的关键词分别在多个类中对应的类频率;
根据所述类频率、以及所述关键词对应的分词频率对所述多个关键词集合进行更新,并对所述类进行更新。


...

【专利技术属性】
技术研发人员:陈少涵刘茜李小龙
申请(专利权)人:北京天空卫士网络安全技术有限公司成都天空卫士网络安全技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1