当前位置: 首页 > 专利查询>清华大学专利>正文

用于自主工业软件文本数据的关键词抽取方法及装置制造方法及图纸

技术编号:33434954 阅读:14 留言:0更新日期:2022-05-19 00:24
本申请公开了一种用于自主工业软件文本数据的关键词抽取方法及装置,其中,方法包括:获取自主工业软件的待提取关键词文档;将待提取关键词文档输入至预先训练的关键词抽取模型,获取待提取关键词文档中每个词语对应的关键词概率,其中,关键词抽取模型由自主工业软件训练数据建立;以及由关键词概率大于预设概率的至少一个词语抽取得到待提取关键词文档的至少一个关键词,其中,至少一个词语的数量根据文本长度和实际关键词概率确定。由此,解决了相关技术中心在抽取自主工业软件文本数据的关键词时,无法高效且准确地对文本数据进行关键词抽取,抽取效果较差,无法满足使用需求的技术问题。求的技术问题。求的技术问题。

【技术实现步骤摘要】
用于自主工业软件文本数据的关键词抽取方法及装置


[0001]本申请涉及网络协同制造
,特别涉及一种用于自主工业软件文本数据的关键词抽取方法及装置。

技术介绍

[0002]自主工业软件是支撑企业发展的核心力量,而自主工业软件文本数据中蕴含着的大量和软件相关的知识,对相关文本数据进行处理是建设自主软件知识库的重要环节。文本关键词是对所属文本的高度概括、总结,方便用户快速判断文档主题内容和进行高效的检索,对知识库建设起重要支撑作用。然而,自主工业软件文本数据大多未经标注,如何高效准确地对这些文本数据进行关键词抽取,是建设自主工业软件知识库过程中亟待解决的关键问题。
[0003]相关技术中,常见的文本数据关键词抽取方法包括:
[0004]1)TF

IDF(term frequency

inverse document frequency,词频

逆文档频率)方法,该方法基于统计信息,但对于文档的主题信息利用较少。
[0005]2)LDA(Latent Dirichlet Allocation,线性判别分析)方法,该方法基于主题模型,但需要将主题数量设定为固定值,与实际不符。
[0006]3)TextRank(文档排名)方法,该方法基于词图模型,但存在计算复杂度高、忽略关键词语义相关性的缺点。
[0007]4)LSTM网络(Long Short

Term Memory,长短期记忆网络),该方法将关键词抽取转换为分类问题,但仅利用了单向语义信息,并未利用文档统计信息。
[0008]综上所述,相关技术对于各类文本信息的利用还不够均衡,当使用这些方法对自主工业软件文本数据进行关键词抽取时,效果并不理想,亟需改善。
[0009]申请内容
[0010]本申请提供一种用于自主工业软件文本数据的关键词抽取方法及装置,以解决相关技术中心在抽取自主工业软件文本数据的关键词时,无法高效且准确地对文本数据进行关键词抽取,抽取效果较差,无法满足使用需求等问题。
[0011]本申请第一方面实施例提供一种用于自主工业软件文本数据的关键词抽取方法,包括以下步骤:获取自主工业软件的待提取关键词文档;将所述待提取关键词文档输入至预先训练的关键词抽取模型,获取所述待提取关键词文档中每个词语对应的关键词概率,其中,所述关键词抽取模型由自主工业软件训练数据建立;以及由所述关键词概率大于预设概率的至少一个词语抽取得到所述待提取关键词文档的至少一个关键词,其中,所述至少一个词语的数量根据文本长度和实际关键词概率确定。
[0012]可选地,在本申请的一个实施例中,所述将所述待提取关键词文档输入至预先训练的关键词抽取模型,包括:基于skip

gram模型和Glove模型分别获取所述待提取关键词文档的skip

gram词向量矩阵和Glove词向量矩阵;基于TF

IDF模型获取所述待提取关键词文档的文本向量;将所述skip

gram词向量矩阵、所述Glove词向量矩阵和所述文本向量输
入至所述关键词抽取模型。
[0013]可选地,在本申请的一个实施例中,在将所述待提取关键词文档输入至所述预先训练的关键词抽取模型之前,还包括:由Fusion_Embedding层神经网络与BiLSTM层神经网络串联,并与TF

IDF层神经网络并联,建立初始关键词抽取模型;利用所述自主工业软件训练数据集训练所述初始关键词抽取模型,得到所述预先训练的关键词抽取模型。
[0014]可选地,在本申请的一个实施例中,所述获取所述待提取关键词文档中每个词语对应的关键词概率,包括:利用所述Fusion_Embedding层神经网络融合所述skip

gram词向量矩阵和Glove词向量矩阵,生成融合词向量矩阵;利用所述TF

IDF层神经网络对所述文本向量进行特征降维处理,得到处理后的文本向量;由所述融合词向量矩阵和所述处理后的文本向量得到所述每个词语对应的关键词概率。
[0015]可选地,在本申请的一个实施例中,所述每个词语对应的关键词概率的计算公式为:
[0016][0017]其中,x为拼接结果,vec_mask为概率分布调整向量,w
i
和w
k
(i,k=1,2,

,n)为可训练参数,概率值p
k
为第k个词作为关键词的概率值。
[0018]本申请第二方面实施例提供一种用于自主工业软件文本数据的关键词抽取装置,包括:获取模块,用于获取自主工业软件的待提取关键词文档;概率计算模块,用于将所述待提取关键词文档输入至预先训练的关键词抽取模型,获取所述待提取关键词文档中每个词语对应的关键词概率,其中,所述关键词抽取模型由自主工业软件训练数据建立;以及抽取模块,用于由所述关键词概率大于预设概率的至少一个词语抽取得到所述待提取关键词文档的至少一个关键词,其中,所述至少一个词语的数量根据文本长度和实际关键词概率确定。
[0019]可选地,在本申请的一个实施例中,所述概率提取模块,进一步用于:基于skip

gram模型和Glove模型分别获取所述待提取关键词文档的skip

gram词向量矩阵和Glove词向量矩阵;并基于TF

IDF模型获取所述待提取关键词文档的文本向量;将所述skip

gram词向量矩阵、所述Glove词向量矩阵和所述文本向量输入至所述关键词抽取模型。
[0020]可选地,在本申请的一个实施例中,用于自主工业软件文本数据的关键词抽取装置,还包括:建模模块,用于由Fusion_Embedding层神经网络与BiLSTM层神经网络串联,并与TF

IDF层神经网络并联,建立初始关键词抽取模型;训练模块,用于利用所述自主工业软件训练数据集训练所述初始关键词抽取模型,得到所述预先训练的关键词抽取模型。
[0021]可选地,在本申请的一个实施例中,所述概率计算模块,包括:融合单元,用于利用所述Fusion_Embedding层神经网络融合所述skip

gram词向量矩阵和Glove词向量矩阵,生成融合词向量矩阵;降维单元,用于利用所述TF

IDF层神经网络对所述文本向量进行特征降维处理,得到处理后的文本向量;概率计算单元,用于由所述融合词向量矩阵和所述处理后的文本向量得到所述每个词语对应的关键词概率。
[0022]可选地,在本申请的一个实施例中,所述每个词语对应的关键词概率的计算公式为:
[0023][0024]其中,x为拼接结果,vec_mask为概率分布调整向量,w
i
和w
k
(i,k=1,2,

本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于自主工业软件文本数据的关键词抽取方法,其特征在于,包括以下步骤:获取自主工业软件的待提取关键词文档;将所述待提取关键词文档输入至预先训练的关键词抽取模型,获取所述待提取关键词文档中每个词语对应的关键词概率,其中,所述关键词抽取模型由自主工业软件训练数据建立;以及由所述关键词概率大于预设概率的至少一个词语抽取得到所述待提取关键词文档的至少一个关键词,其中,所述至少一个词语的数量根据文本长度和实际关键词概率确定。2.根据权利要求1所述的方法,其特征在于,所述将所述待提取关键词文档输入至预先训练的关键词抽取模型,包括:基于skip

gram模型和Glove模型分别获取所述待提取关键词文档的skip

gram词向量矩阵和Glove词向量矩阵;基于TF

IDF模型获取所述待提取关键词文档的文本向量;将所述skip

gram词向量矩阵、所述Glove词向量矩阵和所述文本向量输入至所述关键词抽取模型。3.根据权利要求2所述的方法,其特征在于,在将所述待提取关键词文档输入至所述预先训练的关键词抽取模型之前,还包括:由Fusion_Embedding层神经网络与BiLSTM层神经网络串联,并与TF

IDF层神经网络并联,建立初始关键词抽取模型;利用所述自主工业软件训练数据集训练所述初始关键词抽取模型,得到所述预先训练的关键词抽取模型。4.根据权利要求3所述的方法,其特征在于,所述获取所述待提取关键词文档中每个词语对应的关键词概率,包括:利用所述Fusion_Embedding层神经网络融合所述skip

gram词向量矩阵和Glove词向量矩阵,生成融合词向量矩阵;利用所述TF

IDF层神经网络对所述文本向量进行特征降维处理,得到处理后的文本向量;由所述融合词向量矩阵和所述处理后的文本向量得到所述每个词语对应的关键词概率。5.根据权利要求1

4任一项所述的方法,其特征在于,所述每个词语对应的关键词概率的计算...

【专利技术属性】
技术研发人员:王立平王冬李学崑蔡恩磊张超史慧杰
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1