基于多粒度文本语义信息的运维项目管理方法技术

技术编号:30555419 阅读:51 留言:0更新日期:2021-10-30 13:36
本发明专利技术公开了一种基于多粒度文本语义信息的运维项目管理方法,包括步骤:S1.构建多粒度文本语义匹配模型;S2.得到项目信息摘要;S3.将项目信息摘要以及待匹配项目信息摘要输入到多粒度文本语义匹配模型中进行训练,使得多粒度文本语义匹配模型输出的项目信息相似度达到目标值;S4.得到待测项目信息摘要;S5.将待测项目信息摘要输入到多粒度文本语义匹配模型中得到待测运维项目信息的项目信息相似度;S6.判断项目信息相似度是否大于设定的阈值,若是,则待测运维项目为相似项目;若否,则待测运维项目为正常项目。本发明专利技术能够对相似的运维项目进行筛选,从而避免相似项目的重复申报,缩短了项目申报周期,降低了申报人力成本。本。本。

【技术实现步骤摘要】
基于多粒度文本语义信息的运维项目管理方法


[0001]本专利技术涉及自然语言处理领域,具体涉及一种基于多粒度文本语义信息的运维项目管理方法。

技术介绍

[0002]深度学习中,文本匹配研究主要目的是判断两段文本的相似度关系,所以很多任务在一定程度上都可以抽象成文本匹配的问题,例如:信息搜索、自动问答、机器翻译、对话系统、复述识别等等。
[0003]Huang等人提出的DSSM(Deep Structured Semantic Models)模型最早将神经网络应用到文本匹配任务当中。该模型首先利用深度神经网络把Query和Document的词袋模型生成的向量表示为低维度的语义向量,然后通过余弦公式来计算两个向量的相似度。由于词袋模型生成的向量在进行表示的时候会丢失来自文本的上下文结构信息,因此,Shen等人利用卷积神经网络代替DSSM模型当中的多层感知机得到CDSSM模型。它采用单词序列作为模型的输入,通过词的n

gram和卷积池化操作来捕获上下文关系。与DSSM相比,CDSSM的匹配精度得到了进一步的提高。为了能使模型记住长距离上的句子特征,Wan等人提出了一种基于双向长短时记忆网络(Bidirecti

onal Long Short

Term Memory,Bi

LSTM)的多语义模型MV_LSTM。Hu等人提出的ARC

II模型,首先对两段文本分别利用一维卷积来关注相邻的单词向量,然后将两个卷积后得到的张量进行结合,以便获得描述两个句子之间关联的抽象表示。最后使用多层感知机(MLP)将抽象化的表示转换为匹配分数输出,与之前的DSSM和CDSSM模型相比,ARC

II表现出了更好的结果。Pang等人提出了MatchPyramid模型,该模型直接对查询和文档的单词向量进行点积运算构建交互特征,再通过卷积池化进行特征提取,最后利用全连接网络得出匹配分数。Xiong等人提出的K

NRM模型对两段文本作词嵌入之后,通过计算两段文本的余弦相似度来得到相似性矩阵,然后利用径向基函数核(Radial Basis Function,RBF kernel)对得到的相似性矩阵进行池化,最后利用全连接层来得到最终的匹配分数。
[0004]上述模型可以大致分为两类:捕获局部的词语相似度信息以及捕获全局的语义信息。仅仅捕获词组相似度可能会局限于局部信息,模型会判断两个存在多个相同词组的不同语义句子的相似度过高,而捕获全局的语义信息又会受到网路表达能力和稀有词组的限制,使网络不能完全捕获到整体语句的信息。

技术实现思路

[0005]有鉴于此,本专利技术的目的是克服现有技术中的缺陷,提供基于多粒度文本语义信息的运维项目管理方法,能够对相似的运维项目进行筛选,从而避免相似项目的重复申报,优化了项目申报过程,缩短了项目申报周期,降低了申报人力成本,提高了生产效率。
[0006]本专利技术的基于多粒度文本语义信息的运维项目管理方法,包括如下步骤:
[0007]S1.构建多粒度文本语义匹配模型;
[0008]S2.采集运维项目信息并对运维项目信息进行摘要抽取,得到项目信息摘要;
[0009]S3.将项目信息摘要以及待匹配项目信息摘要输入到多粒度文本语义匹配模型中进行训练,使得多粒度文本语义匹配模型输出的项目信息相似度达到目标值;
[0010]S4.采集待测运维项目信息并对待测运维项目信息进行摘要抽取,得到待测项目信息摘要;
[0011]S5.将待测项目信息摘要输入到多粒度文本语义匹配模型中得到待测运维项目信息的项目信息相似度;
[0012]S6.判断待测运维项目信息的项目信息相似度是否大于设定的阈值,若是,则待测运维项目为相似项目,并进行提示;若否,则待测运维项目为正常项目。
[0013]进一步,对运维项目信息进行摘要抽取前,对运维项目信息进行清洗处理,具体包括:剔除运维项目信息中申报违规的项目信息以及与运维项目无关的项目信息。
[0014]进一步,所述步骤S3,具体包括:
[0015]S31.分别对项目信息摘要以及待匹配项目信息摘要进行字嵌入处理,得到处理后的摘要数据;所述处理后的摘要数据包括处理后的项目信息摘要以及处理后的待匹配项目信息摘要;
[0016]S32.对处理后的摘要数据进行目标粒度下的相似度特征提取,得到若干相似度特征张量;
[0017]S33.对若干相似度特征张量进行结合,并对结合后的相似度特征张量进行加权处理,得到加权后的相似度特征张量;
[0018]S34.计算加权后的相似度特征张量的项目信息相似度,使得所述项目信息相似度达到目标值。
[0019]进一步,步骤S31中,所述字嵌入处理采用Bert字嵌入。
[0020]进一步,步骤S32,具体包括:
[0021]S321.对处理后的摘要数据进行字粒度下的相似度特征提取,得到字相似度特征张量;
[0022]S322.对处理后的摘要数据进行词粒度下的相似度特征提取,得到词相似度特征张量;
[0023]S323.对处理后的摘要数据进行句粒度下的相似度特征提取,得到句相似度特征张量。
[0024]进一步,所述步骤S321,具体包括:
[0025]计算处理后的摘要数据的相似度,得到字相似度矩阵;
[0026]提取字相似度矩阵中的相似度信息,得到字相似度特征张量。
[0027]进一步,所述步骤S322,具体包括:
[0028]分别对处理后的项目信息摘要以及处理后的待匹配项目信息摘要进行特征组合,得到新的摘要数据;所述新的摘要数据包括新的项目信息摘要以及新的待匹配项目信息摘要;
[0029]计算新的摘要数据的相似度,得到词相似度矩阵;
[0030]提取词相似度矩阵中的相似度信息,得到词相似度特征张量。
[0031]进一步,所述步骤S323,具体包括:
[0032]分别提取处理后的项目信息摘要以及处理后的待匹配项目信息摘要中的全局语义信息,得到全局摘要数据;所述全局摘要数据包括全局项目信息摘要以及全局待匹配项目信息摘要;
[0033]对全局项目信息摘要以及全局待匹配项目信息摘要进行结合,并计算结合后的信息摘要的相似度特征,得到句相似度特征张量。
[0034]进一步,所述多粒度文本语义匹配模型的训练采用交叉熵作为Loss函数;
[0035]所述交叉熵为:
[0036]其中,p(x
i
)表示真实数据x
i
的真实概率分布;q(x
i
)表示多粒度文本语义匹配模型预测的概率分布;H(p,q)为计算的真实概率分布p(x
i
)和预测的概率分布q(x
i
)之间的交叉熵。
[0037]本专利技术的有益效果是:本专利技术公开的一种基于多粒度文本语义信息的运维项目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多粒度文本语义信息的运维项目管理方法,其特征在于:包括如下步骤:S1.构建多粒度文本语义匹配模型;S2.采集运维项目信息并对运维项目信息进行摘要抽取,得到项目信息摘要;S3.将项目信息摘要以及待匹配项目信息摘要输入到多粒度文本语义匹配模型中进行训练,使得多粒度文本语义匹配模型输出的项目信息相似度达到目标值;S4.采集待测运维项目信息并对待测运维项目信息进行摘要抽取,得到待测项目信息摘要;S5.将待测项目信息摘要输入到多粒度文本语义匹配模型中得到待测运维项目信息的项目信息相似度;S6.判断待测运维项目信息的项目信息相似度是否大于设定的阈值,若是,则待测运维项目为相似项目,并进行提示;若否,则待测运维项目为正常项目。2.根据权利要求1所述的基于多粒度文本语义信息的运维项目管理方法,其特征在于:对运维项目信息进行摘要抽取前,对运维项目信息进行清洗处理,具体包括:剔除运维项目信息中申报违规的项目信息以及与运维项目无关的项目信息。3.根据权利要求1所述的基于多粒度文本语义信息的运维项目管理方法,其特征在于:所述步骤S3,具体包括:S31.分别对项目信息摘要以及待匹配项目信息摘要进行字嵌入处理,得到处理后的摘要数据;所述处理后的摘要数据包括处理后的项目信息摘要以及处理后的待匹配项目信息摘要;S32.对处理后的摘要数据进行目标粒度下的相似度特征提取,得到若干相似度特征张量;S33.对若干相似度特征张量进行结合,并对结合后的相似度特征张量进行加权处理,得到加权后的相似度特征张量;S34.计算加权后的相似度特征张量的项目信息相似度,使得所述项目信息相似度达到目标值。4.根据权利要求3所述的基于多粒度文本语义信息的运维项目管理方法,其特征在于:步骤S31中,所述字嵌入处理采用Bert字嵌入。5.根据权利要求3所述的基于多粒度文本语义信息的运维项目管理方法,其特征在于:步骤S32,具体包括:S321.对处理后的摘要数据进行字粒...

【专利技术属性】
技术研发人员:王文娟吕乐宾戴诚赵伟胥钟予刘倩雯胡洛娜谭涵丹
申请(专利权)人:国网重庆市电力公司信息通信分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1