【技术实现步骤摘要】
融合RoBERTa和外部知识库的企业行业分类方法
[0001]本专利技术涉及一种融合RoBERTa和外部知识库的企业行业分类方法。
技术介绍
[0002]目前,现有的企业数量已有数千万家,并且每年都有大量新企业设立,如何准确、快速地对构建企业的行业标签是目前亟待解决的问题。
[0003]现有的解决办法通常会借助机器学习的手段进行数据挖掘自动完成企业行业分类。其中,主流的方法有两种:一种是使用传统的机器学习方法,首先人工提取特征,再利用经典的分类算法(如朴素贝叶斯)等分类器完成行业分类;另一种是利用深度学习技术(如循环神经网络)完成自动的特征提取和分类任务。相比一级行业分类,二级行业分类在经营范围的描述上不同行业之间存在更多相似性,这导致利用常规方法很难发现这种微小的差异,进而较难作出正确的判断。
[0004]现有一些公开的相关专利技术专利使用词向量表示可以作为初始的词向量嵌入到神经网络模型中,从而使神经网络模型可以获取更多更精确的语义信息以提升分类的准确率。然而,这些模型往往无法结合上下文信息获得更为全面的语义信息。
[0005]因此,急需要提供一种融合RoBERTa和外部知识库的企业行业分类方法来解决上述技术问题。
技术实现思路
[0006]本专利技术的目的是提供一种融合RoBERTa和外部知识库的企业行业分类方法,该企业行业分类方法不仅能够使用预训练语言模型提取企业经营范围特征,而且还可以通过外部知识库和类别语义信息增强行业分类的准确性。
[0007]为了实现上述目 ...
【技术保护点】
【技术特征摘要】
1.一种融合RoBERTa和外部知识库的企业行业分类方法,其特征在于,包括:步骤1、基于预训练语言模型的语义表征编码;步骤2、基于GRU的候选集生成网络;步骤3、额外知识嵌入;步骤4、行业类别预测。2.根据权利要求1所述的融合RoBERTa和外部知识库的企业行业分类方法,其特征在于,步骤1中包括:将经过预处理后的企业经营范围文本序列输入预训练模型,并将输出的特征向量作为输入到下一层网络的语义表征向量。3.根据权利要求1所述的融合RoBERTa和外部知识库的企业行业分类方法,其特征在于,步骤2中的候选集为对企业类别可能判断的候选选项的集合,并且,在步骤2中使用GRU网络作为候选集的生成网络。4.根据权利要求3所述的融合RoBERTa和外部知识库的企业行业分类方法,其特征在于,步骤2包括:步骤2a、经过预训练模型编码后的语义向量结果x
t
构成集合X={x
t
|t=1,2,
…
,n},将X与类别语义信息作为模块的输入;步骤2b、输入向量x
t
与上一步隐藏状态h
t
‑1线性组合并经过sigmod激活函数非线性化处理后得到更新门z
t
和重置门r
t
;步骤2c、由重置门r
t
与隐藏状态h
t
‑1的哈达玛积和输入向量x
t
线性组合后经过tanh激活函数非线性化处理得到候选状态步骤2d、由更新门z
t
、隐藏状态h
t
‑1和候选状态共同计算得到新的隐藏状态h
t
,计算公式为:步骤2e、将不同时间节点隐藏状态h
t
构成集合H={h
t
|t=1,2,,n,n+1,
…
,n+m}经由全连接层以及softmax函数后得到候选集C={c
i
|i=1,2,
…
,m};步骤2f、对候选集使用全连接层进行维度转换,输出与预训练语言模型同维度的结果步骤2g、在候选集生成网络中添加跳层连接,用于防止训练过程中网络层数加深后可能存在的信息丢失和网络退化;通过将网络的输入部分与输出结果使用门控机制进行相加,得到最终网络输...
【专利技术属性】
技术研发人员:陈钢,佘祥荣,水新莹,
申请(专利权)人:中国科学技术大学智慧城市研究院芜湖,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。