一种自动获取企业多层级分类训练数据的方法和装置制造方法及图纸

技术编号:27194918 阅读:16 留言:0更新日期:2021-01-31 11:46
本发明专利技术公开了一种自动获取企业多层级分类训练数据的方法和装置。该方法包括:获取产业信息、产品名称信息和企业描述文本;根据所述产业信息生成产业层级体系;对所述产品名称信息聚类并关联所述产业层级体系,得到产业多层级关键词列表;根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类,得到各层级的产业标签;根据所述企业描述文本和企业的各层级的产业标签形成训练数据。采用该方案不仅能够根据企业公开的信息,对企业进行准确的多层级分类标注自动获取训练数据,解决了人工标注数据繁琐低效的问题;而且,有利于解决千万级别的企业多层级分类问题,提高企业多层分类的准确性。提高企业多层分类的准确性。提高企业多层分类的准确性。

【技术实现步骤摘要】
一种自动获取企业多层级分类训练数据的方法和装置


[0001]本专利技术涉及数据分类
,尤其涉及一种自动获取企业多层级分类训练数据的方法和装置。

技术介绍

[0002]企业的行业标签是一个重要字段,而企业的数量已有千万,并且每天还在以非常快的速度在进行孵化,所以,对企业进行行业分类是一个非常重要的任务。
[0003]目前,对企业进行行业分类,通常采用的方法是:首先人工标注数据,然后根据人工标注数据运用机器学习算法进行建模,其流程一般包含文本标注、文本表达、分类器选择与训练、分类结果评价与反馈等过程。常用的企业分类算法包括k近邻、决策树、多层感知器、朴素贝叶斯、逻辑回归、支持向量机、随机森林、AdaBoost、lightGBM和xgBoost等。这些分类算法都需要大量的人工标注数据进行模型训练。
[0004]而人工标注数据繁琐低效,尤其是面对大量数据时,工作的繁重以及效率的低下尤甚,直接影响着企业的行业分类效率和准确率,远远无法满足实际应用的需要。

技术实现思路

[0005]为了解决现有技术中存在的问题,本专利技术提供了如下技术方案。
[0006]本专利技术提供了一种自动获取企业多层级分类训练数据的方法,包括:获取产业信息、产品名称信息和企业描述文本;根据所述产业信息生成产业层级体系;对所述产品名称信息聚类并关联所述产业层级体系,得到产业多层级关键词列表;根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类,得到各层级的产业标签;根据所述企业描述文本和企业的各层级的产业标签形成训练数据。
[0007]优选地,所述根据所述产业信息生成产业层级体系包括:对所述产业信息进行分词;对分词结果利用词向量模型进行向量化处理,得到产业词语特征向量,所述词向量模型是利用所述产业信息、产品名称信息和企业描述文本预先训练得到的;使用聚类算法对所述产业词语特征向量进行聚类得到多个产业分类;根据所述产业分类、GICS国际行业分类及国民经济行业分类标准,生成覆盖全产业的产业层级体系。
[0008]优选地,所述对所述产品名称信息聚类并关联所述产业层级体系,得到产业多层级关键词列表包括:根据所述产品名称信息聚类统计得到初级关键词列表;将所述初级关键词列表与所述产业层级体系相关联;获取初级关键词列表中各初级关键词的近义词;
所述初级关键词列表结合各初级关键词的近义词得到所述产业多层级关键词列表。
[0009]优选地,所述根据所述产品名称信息聚类统计得到初级关键词列表包括:对所述产品名称信息进行分词;对分词结果利用所述词向量模型进行向量化处理,得到产品词语特征向量;对所述产品词语特征向量进行聚类得到多簇聚类结果;将每簇聚类结果中出现频率排名在预设范围内的产品词语特征向量对应的词语作为初级关键词,得到所述初级关键词列表。
[0010]优选地,所述获取初级关键词列表中各初级关键词的近义词包括:将所述初级关键词输入所述词向量模型,获取与所述初级关键词的余弦相似度满足预设条件的产品词语,作为所述初级关键词的近义词。
[0011]优选地,所述根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类,得到各层级的产业标签包括:对所述企业描述文本进行分词处理;从分词结果中获取与所述产业多层级关键词列表匹配的关键词;计算匹配的关键词在各产业分类出现的频率;根据属于同一产业分类的关键词频率之和的排名或者与预设阈值的比较为企业标注各层级的产业分类。
[0012]本专利技术另一方面提供了一种企业多层级分类的方法,包括:利用上述方法获取的训练数据对分类算法进行训练,得到企业分类模型;将企业描述文本输入所述企业分类模型,得到所述企业多层级的产业分类。
[0013]本专利技术第三方面提供了一种自动获取企业多层级分类训练数据的装置,包括:信息获取模块,用于获取产业信息、产品名称信息和企业描述文本;产业层级生成模块,用于根据所述产业信息生成产业层级体系;关键词列表获取模块,用于对所述产品名称信息聚类并关联所述产业层级体系,得到产业多层级关键词列表;产业标签获取模块,用于根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类,得到各层级的产业标签;训练数据形成模块,用于根据所述企业描述文本和企业的各层级的产业标签形成训练数据。
[0014]本专利技术第四方面还提供了一种存储器,存储有多条指令,所述指令用于实现如上述的方法。
[0015]本专利技术第五方面还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如上述的方法。
[0016]本专利技术的有益效果是:本专利技术提供的自动获取企业多层级分类训练数据的方法和装置,首先根据产业信息生成产业层级体系;并对所述产品名称信息聚类并关联所述产业层级体系,得到产业多层级关键词列表;再根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类,得到各层级的产业标签;最后根据所述企业描述文本和企业的各层级的产业标签形成训练数据。采用该方案能够根据企业公开的信
息,自动地对企业进行准确的多层级分类标注以获取训练数据,解决了人工标注数据繁琐低效的问题,而且有利于解决千万级别的企业多层级分类问题,提高企业多层分类的准确性。
附图说明
[0017]图1为本专利技术所述自动获取企业多层级分类训练数据的方法流程示意图;图2为本专利技术所述自动获取企业多层级分类训练数据的装置结构示意图。
具体实施方式
[0018]为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
[0019]本专利技术提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
[0020]处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
[0021]存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
[0022]显示屏用于显示各个应用程序的用户界面。
[0023]除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
[0024]实施例一如图1所示,本专利技术实施例提供了一种自动获取企业多层级分类训练数据的方法,包括:S101、获取产业信息、产品名称信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动获取企业多层级分类训练数据的方法,其特征在于,包括:获取产业信息、产品名称信息和企业描述文本;根据所述产业信息生成产业层级体系;对所述产品名称信息聚类并关联所述产业层级体系,得到产业多层级关键词列表;根据企业描述文本中与所述产业多层级关键词列表匹配的关键词为企业标注对应的产业分类,得到各层级的产业标签;根据所述企业描述文本和企业的各层级的产业标签形成训练数据。2.如权利要求1所述的方法,其特征在于,所述根据所述产业信息生成产业层级体系包括:对所述产业信息进行分词;对分词结果利用词向量模型进行向量化处理,得到产业词语特征向量,所述词向量模型是利用所述产业信息、产品名称信息和企业描述文本预先训练得到的;使用聚类算法对所述产业词语特征向量进行聚类得到多个产业分类;根据所述产业分类、GICS国际行业分类及国民经济行业分类标准,生成覆盖全产业的产业层级体系。3.如权利要求2所述的方法,其特征在于,所述对所述产品名称信息聚类并关联所述产业层级体系,得到产业多层级关键词列表包括:根据所述产品名称信息聚类统计得到初级关键词列表;将所述初级关键词列表与所述产业层级体系相关联;获取初级关键词列表中各初级关键词的近义词;所述初级关键词列表结合各初级关键词的近义词得到所述产业多层级关键词列表。4.如权利要求3所述的方法,其特征在于,所述根据所述产品名称信息聚类统计得到初级关键词列表包括:对所述产品名称信息进行分词;对分词结果利用所述词向量模型进行向量化处理,得到产品词语特征向量;对所述产品词语特征向量进行聚类得到多簇聚类结果;将每簇聚类结果中出现频率排名在预设范围内的产品词语特征向量对应的词语作为初级关键词,得到所述初级关键词列表。5.如权利要求4所述的方法,其特征在于,所述获取初级关键词列表中...

【专利技术属性】
技术研发人员:孙会峰邢婷李健诚易航魏小敏
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1