一种基于行业知识的标签识别方法及装置制造方法及图纸

技术编号:37533433 阅读:23 留言:0更新日期:2023-05-12 16:00
本发明专利技术涉及计算机领域,提供了一种基于行业知识的标签识别方法及装置。主旨在于在于通过本技术来解决标准标签识别问题。主要方案包对原始数据进行采样,获取业务系统中数据,并依据标准对标准标签构建层级关系,获得数据以及标准库中数据对应的标准标签;数据预处理,对采集到的数据表、字段以及字段下的样例数据附加上对应的标准标签;对数据向量化,将给定的数据经过预训练模型训练后获取向量化表示;对向量进行特征向量提取,使用深度神经网络,通过设置不同大小的过滤器和池化操作选择适合数据分类的特征向量,全连接层通过在融合层之后加入隐含层和最后的Softmax层充当一个分类器,对文本进行最终的分类,将得到的标准类别标签。别标签。别标签。

【技术实现步骤摘要】
一种基于行业知识的标签识别方法及装置


[0001]本专利技术涉及计算机领域,一种基于行业知识的标签识别方法及装置。

技术介绍

[0002]随着互联网和人工智能的兴起和快速发展,文本数据发生了爆炸式的增长,行业内各企业在对文档设定标签时,会按照各自企业的资料进行自定义设计,但在行业大领域内,随着人工智能的落地,都已经设定好各自行业的标准标签,迫切需要一项高效的技术将各企业自定义的标签与行业内规定的标准标签进行匹配,从而帮助各企业或组织快速获取标准有用的信息。
[0003]标签识别技术是指利用自然语言处理算法自动识别数据单元所属的标准标签,与行业规定的标准标签进行匹配。这样,人们就可以通过标签来理解标签数据的真实标准含义,为我们理解文本数据的语义信息提供了很大便利。
[0004]本提案要解决的技术问题:
[0005]对于数据库中的数据,在垂直行业中,省、部这一级的系统相对规范,标签比较准确;在市、区、县一级的系统中,标签相对不规范,标签可能存在着拼音规则、首字母等问题;在单实际业务系统中,甚至还存在着空标签的问题,通过本技术来解决标准标签识别问题。
[0006]目前为了确定待匹配的实体名称所对应的实体标准名称,需要人工预先观察一些不标准的实体名称与实体标准名称所构成的样本数据的特点,并总结出一些规则逻辑,然后依据这些规则逻辑确定自定义标签所对应的标准标签。然而,人工观察的样本数据较为有限,因此,基于人工观察所制定的规则逻辑并不能覆盖所有情况,从而导致一些不标准的自定义标签无法匹配到相应的标准标签。而且,通过人工观察样本数据总结规则逻辑的方式也对于人工的经验要求较高,且需要耗费较多的人力资源。
[0007]虽然还未有机器学习方法应用,但机器学习的方法无法捕获到文本中隐藏的深层语义信息。

技术实现思路

[0008]本专利技术的目的在于解决对于数据库中的数据,在垂直行业中,省、部这一级的系统相对规范,标签比较准确;在市、区、县一级的系统中,标签相对不规范,标签可能存在着拼音规则、首字母等问题;在单实际业务系统中,甚至还存在着空标签的问题,通过本技术来解决标准标签识别问题。
[0009]一种基于行业知识的标签识别方法,包括以下步骤:
[0010]步骤1:对原始数据进行采样,获取业务系统中数据,并依据标准对标准标签构建层级关系,获得一组或多组业务系统中的数据以及标准库中数据对应的标准标签;
[0011]步骤2:数据预处理,对采集到的数据表、字段以及字段下的样例数据附加上对应的标准标签;
[0012]步骤3:对步骤2处理后的数据向量化,将给定的数据经过预训练模型训练后获取
向量化表示;
[0013]步骤4:对步骤3的向量进行特征向量提取,使用深度神经网络,通过设置不同大小的过滤器和池化操作选择适合数据分类的特征向量,全连接层通过在融合层之后加入隐含层和最后的Softmax层充当一个分类器,对文本进行最终的分类;
[0014]步骤5:将步骤4得到的标准类别标签与数据归档处理。
[0015]上述技术方案中,步骤1具体包括以下步骤:
[0016]步骤1.1:获取业务系统中的数据;
[0017]步骤1.2:获取行业标准中的标准标签;
[0018]步骤1.3:依据行业标准中的规范构建标准标签层级关系。
[0019]上述技术方案中,步骤2具体包括以下步骤:
[0020]步骤2.1:所述业务系统中数据单元包括数据表、字段、以及存储在对应字段下的样例数据中的任意一种或多种;
[0021]步骤2.2:为所述业务系统中的样例数据附加上标准标签类型。
[0022]上述技术方案中,步骤3具体包括以下步骤:
[0023]步骤3.1:对于经过步骤2处理后的数据,使用预训练模型将其转化成向量表示,再将所有向量拼接在一起形成向量矩阵,作为后续深度神经网络模型的输入;
[0024]上述技术方案中,步骤4具体包括以下步骤:
[0025]步骤4.1:对步骤3的向量矩阵使用深度神经网络TextCNN进行特征向量提取,步骤可分为卷积层、池化层、融合层和全连接层;
[0026]步骤4.2:卷积层负责提取文本的内在特征,TextCNN通过采用多个不同大小的卷积核,得到不同特征的表达,卷积核以滑动窗口的形式对句子中窗口大小范围内的词进行过滤并提取特征,再将得到的特征进行拼接,得到整体的特征向量;
[0027]步骤4.3:池化层中采用最大池化技术,即从步骤4.2每一个滑动窗口产生的特征向量中筛选出最大值,之后将这些最大值进行拼接,构成特征向量表示;
[0028]步骤4.4:融合层将步骤4.3池化层所得的特征进行拼接,融合成一个对文本向量来说更具有代表性的向量。
[0029]步骤4.5:全连接层通过在融合层之后加入隐含层和最后的Softmax层充当一个分类器,对步骤4.4得到的向量进行分类。
[0030]上述技术方案中,上述步骤5具体包括以下步骤:
[0031]步骤5.1:取步骤4经过函数处理后概率最大的标准标签为最终标签。
[0032]步骤5.2:利用训练后的模型即可对待分类原始数据单元进行分类识别,完成标签化后归档;
[0033]步骤5.3:若字段属于某一级标签下的二级标签,它同样属于该一级标签。
[0034]本专利技术还提供了一种基于行业知识的标签识别装置,包括以下模块:
[0035]标准标签模块:对原始数据进行采样,获取业务系统中数据,并依据标准对标准标签构建层级关系,获得一组或多组业务系统中的数据以及标准库中数据对应的标准标签;
[0036]数据预处理模块:数据预处理,对采集到的数据表、字段以及字段下的样例数据附加上对应的标准标签;
[0037]向量化模块:对数据预处理模块处理后的数据向量化,将给定的数据经过预训练
模型训练后获取向量化表示,得到向量矩阵;
[0038]分类模块:对向量化模块的向量进行特征向量提取,使用深度神经网络,通过设置不同大小的过滤器和池化操作选择适合数据分类的特征向量,全连接层通过在融合层之后加入隐含层和最后的Softmax层充当一个分类器,对文本进行最终的分类;
[0039]归档模块:将分类模块得到的标准类别标签与数据归档处理。
[0040]上述装置中,标准标签模块实现具体包括以下步骤:
[0041]步骤1.1:获取业务系统中的数据;
[0042]步骤1.2:获取行业标准中的标准标签;
[0043]步骤1.3:依据行业标准中的规范构建标准标签层级关系。
[0044]上述装置中,数据预处理模块具体包括以下步骤:
[0045]步骤2.1:所述业务系统中数据单元包括数据表、字段、以及存储在对应字段下的样例数据中的任意一种或多种;
[0046]步骤2.2:为所述业务系统中的样例数据附加上标准标签类型。
[0047]上述装置本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于行业知识的标签识别方法,其特征在于,包括以下步骤:步骤1:对原始数据进行采样,获取业务系统中数据,并依据标准对标准标签构建层级关系,获得一组或多组业务系统中的数据以及标准库中数据对应的标准标签;步骤2:数据预处理,对采集到的数据表、字段以及字段下的样例数据附加上对应的标准标签;步骤3:对步骤2处理后的数据向量化,将给定的数据经过预训练模型训练后获取向量化表示,得到向量矩阵;步骤4:对步骤3的向量进行特征向量提取,使用深度神经网络,通过设置不同大小的过滤器和池化操作选择适合数据分类的特征向量,全连接层通过在融合层之后加入隐含层和最后的Softmax层充当一个分类器,对文本进行最终的分类;步骤5:将步骤4得到的标准类别标签与数据归档处理。2.根据权利要求1所述的一种基于行业知识的标签识别方法,其特征在于,步骤1具体包括以下步骤:步骤1.1:获取业务系统中的数据;步骤1.2:获取行业标准中的标准标签;步骤1.3:依据行业标准中的规范构建标准标签层级关系。3.根据权利要求1所述的一种基于行业知识的标签识别方法,其特征在于,步骤2具体包括以下步骤:步骤2.1:所述业务系统中数据单元包括数据表、字段、以及存储在对应字段下的样例数据中的任意一种或多种;步骤2.2:为所述业务系统中的样例数据附加上标准标签类型。4.根据权利要求1所述的一种基于行业知识的标签识别方法,其特征在于,步骤3具体包括以下步骤:步骤3.1:对于经过步骤2处理后的数据,使用预训练模型将其转化成向量表示,再将所有向量拼接在一起形成向量矩阵,作为后续深度神经网络模型的输入。5.根据权利要求1所述的一种基于行业知识的标签识别方法,其特征在于,步骤4具体包括以下步骤:步骤4.1:对步骤3的向量矩阵使用深度神经网络TextCNN进行特征向量提取,步骤可分为卷积层、池化层、融合层和全连接层;步骤4.2:卷积层负责提取文本的内在特征,TextCNN通过采用多个不同大小的卷积核,得到不同特征的表达,卷积核以滑动窗口的形式对句子中窗口大小范围内的词进行过滤并提取特征,再将得到的特征进行拼接,得到整体的特征向量;步骤4.3:池化层中采用最大池化技术,即从步骤4.2每一个滑动窗口产生的特征向量中筛选出最大值,之后将这些最大值进行拼接,构成特征向量表示;步骤4.4:融合层将步骤4.3...

【专利技术属性】
技术研发人员:赵群苏萌刘译璟苏海波杜晓梦
申请(专利权)人:北京百分点科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1