一种信息处理方法、系统、设备及计算机可读存储介质技术方案

技术编号:27656687 阅读:13 留言:0更新日期:2021-03-12 14:19
本申请公开了一种信息处理方法、系统、设备及介质,获取待分析企业的多维度数据信息,多维度数据信息包括两个及两个以上维度的数据信息;对多维度数据信息进行特征提取,得到多维度向量信息;基于多维度向量信息确定待分析企业属于各个企业类别的概率集;基于概率集确定待分析企业的目标类别。本申请中,获取的是待分析企业的多维度数据信息,相当于获取待分析企业在多个维度下的数据信息,可以为后续进行企业类别识别时提供较多的信息,与根据单一的数据信息来对企业进行类别识别的现有技术相比,可以提高企业类别识别的准确性,并且全程无需人工参与,效率高。本申请提供的一种信息处理系统、设备及计算机可读存储介质也解决了相应技术问题。

【技术实现步骤摘要】
一种信息处理方法、系统、设备及计算机可读存储介质
本申请涉及互联网
,更具体地说,涉及一种信息处理方法、系统、设备及计算机可读存储介质。
技术介绍
企业的行业标签是一个重要字段,借助企业的行业标签可以对企业有一个快速认识,而全国已有企业达千万级别,并且每天有不少企业孵化,如何快速对企业按行业分类是个重要问题。现有技术中对企业的行业进行分类时,只考虑企业的经营范围描述或企业的名称数据等,并且主要采用人工统计分析方法对企业的行业进行分类,需要消耗大量的人力物力,工作量繁重,工作效率极低,而其分类结果准确性也偏低,可信度不高。综上所述,如何提高企业行业识别的效率及准确性是目前本领域技术人员亟待解决的问题。
技术实现思路
本申请的目的是提供一种信息处理方法,其能在一定程度上解决如何提高企业行业识别的效率及准确性的技术问题。本申请还提供了一种信息处理系统、设备及计算机可读存储介质。为了实现上述目的,本申请提供如下技术方案:一种信息处理方法,包括:获取待分析企业的多维度数据信息,所述多维度数据信息包括两个及两个以上维度的数据信息;对所述多维度数据信息进行特征提取,得到多维度向量信息;基于所述多维度向量信息确定所述待分析企业属于各个企业类别的概率集;基于所述概率集确定所述待分析企业的目标类别。优选的,所述对所述多维度数据信息进行特征提取,得到多维度向量信息,包括:基于自然语言处理方法和文本特征提取方法对所述多维度数据信息进行特征提取,得到所述多维度向量信息。优选的,所述多维度数据信息包括:企业单位名称、企业经营范围信息、企业直接监管单位信息、企业主域名网站信息、搜索引擎推荐信息。优选的,所述基于自然语言处理方法和文本特征提取方法对所述多维度数据信息进行特征提取,得到所述多维度向量信息,包括:基于TFIDF算法对所述企业单位名称、所述企业直接监管单位信息、所述搜索引擎推荐信息进行特征提取,得到相应的维度向量信息;基于Word2Vec模型对所述企业经营范围信息进行特征提取,得到相应的维度向量信息;基于词向量方法对所述企业主域名网站信息进行特征提取,得到相应的维度向量信息;将所有的所述维度向量信息作为所述多维度向量信息。优选的,所述基于所述多维度向量信息确定所述待分析企业属于各个企业类别的概率集,包括:基于支持向量机分类方法对所述企业单位名称、所述搜索引擎推荐信息对应的所述维度向量信息进行企业类别概率计算,得到相应的所述待分析企业属于各个企业类别的概率值;基于KNN方法对所述企业直接监管单位信息对应的所述维度向量信息进行企业类别概率计算,得到相应的所述待分析企业属于各个企业类别的概率值;基于TextCNN深度学习模型对所述企业经营范围信息、所述企业主域名网站信息对应的所述维度向量信息进行企业类别概率计算,得到相应的所述待分析企业属于各个企业类别的概率值;将所有的所述概率值作为所述概率集。优选的,所述基于所述概率集确定所述待分析企业的目标类别,包括:基于xgboost分类器对所述概率集进行处理,得到所述目标类别。优选的,所述基于xgboost分类器对所述概率集进行处理,得到所述目标类别,包括:将所述概率集中的各个所述概率值进行拼接,得到拼接概率;基于所述xgboost分类器对所述拼接概率进行处理,得到所述目标类别。一种信息处理系统,包括:第一获取模块,用于获取待分析企业的多维度数据信息,所述多维度数据信息包括两个及两个以上维度的数据信息;第一提取模块,用于对所述多维度数据信息进行特征提取,得到多维度向量信息;第一确定模块,用于基于所述多维度向量信息确定所述待分析企业属于各个企业类别的概率集;第二确定模块,用于基于所述概率集确定所述待分析企业的目标类别。一种信息处理设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上任一所述信息处理方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述信息处理方法的步骤。本申请提供的一种信息处理方法,获取待分析企业的多维度数据信息,多维度数据信息包括两个及两个以上维度的数据信息;对多维度数据信息进行特征提取,得到多维度向量信息;基于多维度向量信息确定待分析企业属于各个企业类别的概率集;基于概率集确定待分析企业的目标类别。本申请中,获取的是待分析企业的多维度数据信息,相当于获取待分析企业在多个维度下的数据信息,可以为后续进行企业类别识别时提供较多的信息,与根据单一的数据信息来对企业进行类别识别的现有技术相比,可以提高企业类别识别的准确性,并且全程无需人工参与,效率高。本申请提供的一种信息处理系统、设备及计算机可读存储介质也解决了相应技术问题。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例提供的一种信息处理方法的第一流程图;图2为本申请中多维度向量信息的确定流程图;图3为CBOW模型的结构示意图;图4为Skip-gram模型的结构示意图;图5为本实施例中概率集的确定流程图;图6为本申请实施例提供的一种信息处理系统的结构示意图;图7为本申请实施例提供的一种信息处理设备的结构示意图;图8为本申请实施例提供的一种信息处理设备的另一结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。请参阅图1,图1为本申请实施例提供的一种信息处理方法的第一流程图。本申请实施例提供的一种信息处理方法,可以包括以下步骤:步骤S101:获取待分析企业的多维度数据信息,多维度数据信息包括两个及两个以上维度的数据信息。实际应用中,可以先获取待分析企业的多维度数据信息,多维度数据信息也即待分析企业在多个维度下的数据信息,多维度数据信息一般包括两个及两个以上维度的数据信息,其类型可以根据实际需要确定。步骤S102:对多维度数据信息进行特征提取,得到多维度向量信息。实际应用中,因为获取的多维度数据信息的类型较多且表示方式多样,为了便于后续对多维度数据信息进行处理,可以先对多维度数据信息进行特征提取,得到多维度向量信息,也即可以将多维度数据信息转换为相应的向量信息,后续根据多本文档来自技高网...

【技术保护点】
1.一种信息处理方法,其特征在于,包括:/n获取待分析企业的多维度数据信息,所述多维度数据信息包括两个及两个以上维度的数据信息;/n对所述多维度数据信息进行特征提取,得到多维度向量信息;/n基于所述多维度向量信息确定所述待分析企业属于各个企业类别的概率集;/n基于所述概率集确定所述待分析企业的目标类别。/n

【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:
获取待分析企业的多维度数据信息,所述多维度数据信息包括两个及两个以上维度的数据信息;
对所述多维度数据信息进行特征提取,得到多维度向量信息;
基于所述多维度向量信息确定所述待分析企业属于各个企业类别的概率集;
基于所述概率集确定所述待分析企业的目标类别。


2.根据权利要求1所述的方法,其特征在于,所述对所述多维度数据信息进行特征提取,得到多维度向量信息,包括:
基于自然语言处理方法和文本特征提取方法对所述多维度数据信息进行特征提取,得到所述多维度向量信息。


3.根据权利要求1所述的方法,其特征在于,所述多维度数据信息包括:企业单位名称、企业经营范围信息、企业直接监管单位信息、企业主域名网站信息、搜索引擎推荐信息。


4.根据权利要求3所述的方法,其特征在于,所述基于自然语言处理方法和文本特征提取方法对所述多维度数据信息进行特征提取,得到所述多维度向量信息,包括:
基于TFIDF算法对所述企业单位名称、所述企业直接监管单位信息、所述搜索引擎推荐信息进行特征提取,得到相应的维度向量信息;
基于Word2Vec模型对所述企业经营范围信息进行特征提取,得到相应的维度向量信息;
基于词向量方法对所述企业主域名网站信息进行特征提取,得到相应的维度向量信息;
将所有的所述维度向量信息作为所述多维度向量信息。


5.根据权利要求4所述的方法,其特征在于,所述基于所述多维度向量信息确定所述待分析企业属于各个企业类别的概率集,包括:
基于支持向量机分类方法对所述企业单位名称、所述搜索引擎推荐信息对应的所述维度向量信息进行企业类别概率计算,得到相应的所述待分析企业属于各个企业类别的概率值;
基于KNN方法对...

【专利技术属性】
技术研发人员:仝哲范渊杨勃
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1