融合RoBERTa和外部知识库的企业行业分类方法技术

技术编号:29937808 阅读:31 留言:0更新日期:2021-09-04 19:17
本发明专利技术公开了一种融合RoBERTa和外部知识库的企业行业分类方法,包括:步骤1、基于预训练语言模型的语义表征编码;步骤2、基于GRU的候选集生成网络;步骤3、额外知识嵌入;步骤4、行业类别预测。该企业行业分类方法不仅能够使用预训练语言模型提取企业经营范围特征,而且还可以通过外部知识库和类别语义信息增强行业分类的准确性。业分类的准确性。业分类的准确性。

【技术实现步骤摘要】
融合RoBERTa和外部知识库的企业行业分类方法


[0001]本专利技术涉及一种融合RoBERTa和外部知识库的企业行业分类方法。

技术介绍

[0002]目前,现有的企业数量已有数千万家,并且每年都有大量新企业设立,如何准确、快速地对构建企业的行业标签是目前亟待解决的问题。
[0003]现有的解决办法通常会借助机器学习的手段进行数据挖掘自动完成企业行业分类。其中,主流的方法有两种:一种是使用传统的机器学习方法,首先人工提取特征,再利用经典的分类算法(如朴素贝叶斯)等分类器完成行业分类;另一种是利用深度学习技术(如循环神经网络)完成自动的特征提取和分类任务。相比一级行业分类,二级行业分类在经营范围的描述上不同行业之间存在更多相似性,这导致利用常规方法很难发现这种微小的差异,进而较难作出正确的判断。
[0004]现有一些公开的相关专利技术专利使用词向量表示可以作为初始的词向量嵌入到神经网络模型中,从而使神经网络模型可以获取更多更精确的语义信息以提升分类的准确率。然而,这些模型往往无法结合上下文信息获得更为全面的语义信息。
[0005]因此,急需要提供一种融合RoBERTa和外部知识库的企业行业分类方法来解决上述技术问题。

技术实现思路

[0006]本专利技术的目的是提供一种融合RoBERTa和外部知识库的企业行业分类方法,该企业行业分类方法不仅能够使用预训练语言模型提取企业经营范围特征,而且还可以通过外部知识库和类别语义信息增强行业分类的准确性。
[0007]为了实现上述目的,本专利技术提供了一种融合RoBERTa和外部知识库的企业行业分类方法,包括:
[0008]步骤1、基于预训练语言模型的语义表征编码;
[0009]步骤2、基于GRU的候选集生成网络;
[0010]步骤3、额外知识嵌入;
[0011]步骤4、行业类别预测。
[0012]优选地,步骤1中包括:将经过预处理后的企业经营范围文本序列输入预训练模型,并将输出的特征向量作为输入到下一层网络的语义表征向量。
[0013]优选地,步骤2中的候选集为对企业类别可能判断的候选选项的集合,并且,在步骤2中使用GRU网络作为候选集的生成网络。
[0014]优选地,步骤2包括:
[0015]步骤2a、经过预训练模型编码后的语义向量结果x
t
构成集合X={x
t
|t=1,2,

,n},将X与类别语义信息作为模块的输入;
[0016]步骤2b、输入向量x
t
与上一步隐藏状态h
t
‑1线性组合并经过sigmod激活函数非线
性化处理后得到更新门z
t
和重置门r
t

[0017]步骤2c、由重置门r
t
与隐藏状态h
t
‑1的哈达玛积和输入向量x
t
线性组合后经过tanh激活函数非线性化处理得到候选状态
[0018]步骤2d、由更新门z
t
、隐藏状态h
t
‑1和候选状态共同计算得到新的隐藏状态h
t
,计算公式为:
[0019]步骤2e、将不同时间节点隐藏状态h
t
构成集合H={h
t
|t=1,2,

,n,n+1,

,n+m}经由全连接层以及softmax函数后得到候选集C={c
i
|i=1,2,

,m};
[0020]步骤2f、对候选集使用全连接层进行维度转换,输出与预训练语言模型同维度的结果
[0021]步骤2g、在候选集生成网络中添加跳层连接,用于防止训练过程中网络层数加深后可能存在的信息丢失和网络退化;通过将网络的输入部分与输出结果使用门控机制进行相加,得到最终网络输出结果V
out
,其中,
[0022]V
out
=f(X)+X
[0023]其中f是主干网络,由多个网络层组成的非线性变换。
[0024]优选地,步骤3中包括:构建一个基于企业描述信息的Query

Tag预测模型,使用BiGRU网络作为信息提取网络,为输出层提供输入序列中每一个点的完整上下文信息;同时,引入注意力机制增强补充额外知识后的预测效果。
[0025]优选地,步骤3包括:
[0026]步骤3a、将企业其他信息作为外部知识信息引入Query

Tag预测模型,以键值对的形式构建出结构化的外部知识;输入到模型中的结构化知识库表示为一个键值对列表
[0027]L=[(s1,v1),(s2,v2),

,(s
n
,v
n
)][0028]其中,si表示企业额外信息对应类型,vi表示对应企业额外信息的具体内容;
[0029]步骤3b、将结构化知识库L=[(s1,v1),(s2,v2),

,(s
n
,v
n
)]经过嵌入得到向量L=[I1,I2,

,I
n
];
[0030]步骤3c、将向量L中的元素Ii分别输入前向GRU和反向GRU得到前向隐藏状态和反向隐藏状态拼接前向和反向隐藏状态得到BiGRU的隐藏状态
[0031]步骤3d、对BiGRU的隐藏状态h
i
应用注意力机制,并引入知识库上下文向量u来衡量知识的重要性,得到有助于增强行业分类的额外知识向量V;
[0032]步骤3e、通过全连接网络将额外知识向量V的维度转换为与主干网络相同维度的结果向量
[0033]优选地,步骤4中包括将额外知识特征与经营范围特征V
out
进行拼接得到V
concat
,将V
concat
输入分类器中实现行业预测:
[0034][0035]p=softmax(WV
concat
+b)
[0036]同时,使用正确类别的负对数似然作为训练的损失函数:
[0037][0038]其中,j是企业E的分类类别。
[0039]根据上述技术方案,本专利技术为了使RoBERTa模型适用于中文环境下的企业行业分类任务,使用哈工大讯飞联合实验室发布的RoBERTa

wwm

ext作为文本特征提取模型。处理后的文本表征向量被输入到候选集生成网络,产生包含类别候选集的特征向量,额外知识作为补充信息在使用BiGRU向量化后与特征向量进行拼接得到融合的特征向量,融合后的特征向量最终输入到分类器进行类别预测,以实现行业类别预测。
[0040]本专利技术的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0041]附图是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合RoBERTa和外部知识库的企业行业分类方法,其特征在于,包括:步骤1、基于预训练语言模型的语义表征编码;步骤2、基于GRU的候选集生成网络;步骤3、额外知识嵌入;步骤4、行业类别预测。2.根据权利要求1所述的融合RoBERTa和外部知识库的企业行业分类方法,其特征在于,步骤1中包括:将经过预处理后的企业经营范围文本序列输入预训练模型,并将输出的特征向量作为输入到下一层网络的语义表征向量。3.根据权利要求1所述的融合RoBERTa和外部知识库的企业行业分类方法,其特征在于,步骤2中的候选集为对企业类别可能判断的候选选项的集合,并且,在步骤2中使用GRU网络作为候选集的生成网络。4.根据权利要求3所述的融合RoBERTa和外部知识库的企业行业分类方法,其特征在于,步骤2包括:步骤2a、经过预训练模型编码后的语义向量结果x
t
构成集合X={x
t
|t=1,2,

,n},将X与类别语义信息作为模块的输入;步骤2b、输入向量x
t
与上一步隐藏状态h
t
‑1线性组合并经过sigmod激活函数非线性化处理后得到更新门z
t
和重置门r
t
;步骤2c、由重置门r
t
与隐藏状态h
t
‑1的哈达玛积和输入向量x
t
线性组合后经过tanh激活函数非线性化处理得到候选状态步骤2d、由更新门z
t
、隐藏状态h
t
‑1和候选状态共同计算得到新的隐藏状态h
t
,计算公式为:步骤2e、将不同时间节点隐藏状态h
t
构成集合H={h
t
|t=1,2,,n,n+1,

,n+m}经由全连接层以及softmax函数后得到候选集C={c
i
|i=1,2,

,m};步骤2f、对候选集使用全连接层进行维度转换,输出与预训练语言模型同维度的结果步骤2g、在候选集生成网络中添加跳层连接,用于防止训练过程中网络层数加深后可能存在的信息丢失和网络退化;通过将网络的输入部分与输出结果使用门控机制进行相加,得到最终网络输...

【专利技术属性】
技术研发人员:陈钢佘祥荣水新莹
申请(专利权)人:中国科学技术大学智慧城市研究院芜湖
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1