科技信息管理系统及其管理方法技术方案

技术编号:35205992 阅读:20 留言:0更新日期:2022-10-15 10:16
本申请公开了一种科技信息管理系统及其管理方法,其通过使用深度神经网络模型对待标注的科技信息进行词级的语义关联特征和段落级的语义关联特征的特征提取,进而对所述待标注的科技信息的主题进行标注,并且在融合这两者的特征关联信息时,进一步计算这两者特征向量之间的特征密集权重因数来对各自的所述特征向量进行加权,以提升不同特征密度的特征向量之间的自适应依赖性,从而提升分类特征向量对于分类目标函数的数据密度自适应性,也就是,提高了分类准确性。这样,就能够对科技信息进行准确地分类,进而提高对于所述科技信息的整合和分析利用。整合和分析利用。整合和分析利用。

【技术实现步骤摘要】
科技信息管理系统及其管理方法


[0001]本专利技术涉及科技信息智能标注的领域,且更为具体地,涉及一种科技信息管理系统及其管理方法。

技术介绍

[0002]随着近年来社会的快速发展,科研机构的科技信息管理也日趋完善,逐渐与国际化接轨,但科技信息的管理是一个复杂而抽象、且针对性强的过程,没有一个放任四海而皆准的固定模式。目前,好多科研机构不注重科技信息的管理,在科技信息数据的收集、分析和管理上也较为混乱,或者仅仅起到信息储存的作用,不能系统地对信息进行分类、整理和并分析利用。
[0003]因此,期待一种优化的科技信息管理系统。

技术实现思路

[0004]为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种科技信息管理系统及其管理方法,其通过使用深度神经网络模型对待标注的科技信息进行词级的语义关联特征和段落级的语义关联特征的特征提取,进而对所述待标注的科技信息的主题进行标注,并且在融合这两者的特征关联信息时,进一步计算这两者特征向量之间的特征密集权重因数来对各自的所述特征向量进行加权,以提升不同特征密度的特征向量之间的自适应依赖性,从而提升分类特征向量对于分类目标函数的数据密度自适应性,也就是,提高了分类准确性。这样,就能够对科技信息进行准确地分类,进而提高对于所述科技信息的整合和分析利用。
[0005]根据本申请的一个方面,提供了一种科技信息管理系统,其包括:
[0006]待标注科技信息获取单元,用于获取待标注的科技信息;
[0007]词粒度编码单元,用于将所述待标注的科技信息进行分词处理后通过包含词嵌入层的上下文编码器以得到多个词高维特征向量;
[0008]词粒度关联编码单元,用于将所述多个词高维特征向量排列为一维的特征向量后通过一维卷积神经网络以得到第一语义特征向量;
[0009]分段单元,用于将所述待标注的科技信息按照段落进行划分以获得多个段落;
[0010]段落编码单元,用于将所述多个段落中的各个段落分别通过所述包含词嵌入层的上下文编码器以得到对应于各个段落的段落高维特征向量;
[0011]段落关联编码单元,用于将所述对应于各个段落的段落高维特征向量按照段落样本维度排列为二维的特征矩阵后通过使用二维卷积核的第二卷积神经网络以得到第二语义特征向量;
[0012]互密集权重因数计算单元,用于计算所述第一语义特征向量相对于所述第二语义特征向量的第一特征密集权重因数以及所述第二语义特征向量相对于所述第一语义特征向量的第二特征密集权重因数;
[0013]特征分布调整单元,用于以所述第一特征密集权重因数和所述第二特征密集权重因数分别对所述第一语义特征向量和所述第二语义特征向量进行加权以得到加权后第一语义特征向量和加权后第二语义特征向量;
[0014]特征融合单元,用于融合所述加权后第一语义特征向量和所述加权后第二语义特征向量以得到分类特征向量;以及
[0015]主题标注单元,用于将所述分类特征向量通过所述多标签分类器以得到所述待标注的科技信息所属的主题标签。
[0016]在上述科技信息管理系统中,所述词粒度编码单元,包括:分词子单元,用于对所述待标注的科技信息进行分词以获得词序列;词嵌入子单元,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射为词向量以获得词向量序列;上下文语义编码子单元,用于使用所述包含嵌入层的上下文编码器的基于转换器的Bert模型对所述词向量序列进行基于全局掩码结构的全局语义编码以得到多个词高维特征向量。
[0017]在上述科技信息管理系统中,所述词粒度关联编码单元,进一步用于:使用所述一维卷积神经网络的一维卷积层以如下公式对所述一维的特征向量进行一维卷积编码以提取所述一维的特征向量中各个位置的特征值间的关联的高维隐含关联特征,其中,所述公式为:
[0018][0019]其中,a为卷积核在x方向上的宽度、F为卷积核参数向量、G为与卷积核函数运算的局部向量矩阵,w为卷积核的尺寸。
[0020]在上述科技信息管理系统中,所述段落关联编码单元,进一步用于以所述使用二维卷积核的第二卷积神经网络的各层在层的正向传递中对输入数据分别进行卷积处理、基于局部特征矩阵的均值池化处理和非线性激活处理以由所述第二卷积神经网络的最后一层输出所述第二语义特征向量。
[0021]在上述科技信息管理系统中,所述互密集权重因数计算单元,进一步用于以如下公式来计算所述第一语义特征向量相对于所述第二语义特征向量的第一特征密集权重因数;
[0022]其中,所述公式为:
[0023][0024]其中V1表示所述第一语义特征向量,V2表示所述第二语义特征向量,

表示点乘,softmax
j
(
·
)表示特征向量通过多标签分类器后得到的每个标签下的概率值,且∑
j
softmax
j
(
·
)表示对于每个标签下的概率值的进行求和,d(
·
,
·
)表示特征向量之间的距离,exp(
·
)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值,特征向量除以参数表示以特征向量中各个位置的特征值分别除以参数。
[0025]在上述科技信息管理系统中,所述互密集权重因数计算单元,进一步用于以如下
公式来计算所述第二语义特征向量相对于所述第一语义特征向量的第二特征密集权重因数;
[0026]其中,所述公式为:
[0027][0028]其中V1表示所述第一语义特征向量,V2表示所述第二语义特征向量,

表示点乘,softmax
j
(
·
)表示特征向量通过多标签分类器后得到的每个标签下的概率值,且∑
j
softmax
j
(
·
)表示对于每个标签下的概率值的进行求和,d(
·
,
·
)表示特征向量之间的距离,exp(
·
)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函数值,特征向量除以参数表示以特征向量中各个位置的特征值分别除以参数。
[0029]在上述科技信息管理系统中,所述特征融合单元,进一步用于计算所述加权后第一语义特征向量和所述加权后第二语义特征向量的按位置加权和以得到所述分类特征向量。
[0030]在上述科技信息管理系统中,所述主题标注单元,进一步用于:使用所述多标签分类器以如下公式对所述分类特征向量进行处理以获得所述待标注的科技信息所属的主题标签,其中,所述公式为:softmax
j
{(W
n
,B
n
):

:(W1,B1)|X},其中,W1到W
n
为权重矩阵,B1到B
...

【技术保护点】

【技术特征摘要】
1.一种科技信息管理系统,其特征在于,包括:待标注科技信息获取单元,用于获取待标注的科技信息;词粒度编码单元,用于将所述待标注的科技信息进行分词处理后通过包含词嵌入层的上下文编码器以得到多个词高维特征向量;词粒度关联编码单元,用于将所述多个词高维特征向量排列为一维的特征向量后通过一维卷积神经网络以得到第一语义特征向量;分段单元,用于将所述待标注的科技信息按照段落进行划分以获得多个段落;段落编码单元,用于将所述多个段落中的各个段落分别通过所述包含词嵌入层的上下文编码器以得到对应于各个段落的段落高维特征向量;段落关联编码单元,用于将所述对应于各个段落的段落高维特征向量按照段落样本维度排列为二维的特征矩阵后通过使用二维卷积核的第二卷积神经网络以得到第二语义特征向量;互密集权重因数计算单元,用于计算所述第一语义特征向量相对于所述第二语义特征向量的第一特征密集权重因数以及所述第二语义特征向量相对于所述第一语义特征向量的第二特征密集权重因数;特征分布调整单元,用于以所述第一特征密集权重因数和所述第二特征密集权重因数分别对所述第一语义特征向量和所述第二语义特征向量进行加权以得到加权后第一语义特征向量和加权后第二语义特征向量;特征融合单元,用于融合所述加权后第一语义特征向量和所述加权后第二语义特征向量以得到分类特征向量;以及主题标注单元,用于将所述分类特征向量通过所述多标签分类器以得到所述待标注的科技信息所属的主题标签。2.根据权利要求1所述的科技信息管理系统,其中,所述词粒度编码单元,包括:分词子单元,用于对所述待标注的科技信息进行分词以获得词序列;词嵌入子单元,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述词序列中各个词映射为词向量以获得词向量序列;上下文语义编码子单元,用于使用所述包含嵌入层的上下文编码器的基于转换器的Bert模型对所述词向量序列进行基于全局掩码结构的全局语义编码以得到多个词高维特征向量。3.根据权利要求2所述的科技信息管理系统,其中,所述词粒度关联编码单元,进一步用于:使用所述一维卷积神经网络的一维卷积层以如下公式对所述一维的特征向量进行一维卷积编码以提取所述一维的特征向量中各个位置的特征值间的关联的高维隐含关联特征,其中,所述公式为:其中,a为卷积核在x方向上的宽度、F为卷积核参数向量、G为与卷积核函数运算的局部向量矩阵,w为卷积核的尺寸。4.根据权利要求3所述的科技信息管理系统,其中,所述段落关联编码单元,进一步用
于以所述使用二维卷积核的第二卷积神经网络的各层在层的正向传递中对输入数据分别进行卷积处理、基于局部特征矩阵的均值池化处理和非线性激活处理以由所述第二卷积神经网络的最后一层输出所述第二语义特征向量。5.根据权利要求4所述的科技信息管理系统,其中,所述互密集权重因数计算单元,进一步用于以如下公式来计算所述第一语义特征向量相对于所述第二语义特征向量的第一特征密集权重因数;其中,所述公式为:其中V1表示所述第一语义特征向量,V2表示所述第二语义特征向量,

表示点乘,softmax
j
(
·
)表示特征向量通过多标签分类器后得到的每个标签下的概率值,且∑
j
softmax
j
(
·
)表示对于每个标签下的概率值的进行求和,d(
·
,
·
)表示特征向量之间的距离,exp(
·
)表示向量的指数运算,所述向量的指数运算表示计算以向量中各个位置的特征值为幂的自然指数函...

【专利技术属性】
技术研发人员:林劝雄黄泽滨庄伟鹏郑金来柳小露高维维林雅玲陈志勇林曜晖王志菲
申请(专利权)人:福建华昊信息技术咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1