用于自主工业软件文本数据的关键词抽取方法及装置制造方法及图纸

技术编号：33434954 阅读：14 留言：0更新日期：2022-05-19 00:24

本申请公开了一种用于自主工业软件文本数据的关键词抽取方法及装置，其中，方法包括：获取自主工业软件的待提取关键词文档；将待提取关键词文档输入至预先训练的关键词抽取模型，获取待提取关键词文档中每个词语对应的关键词概率，其中，关键词抽取模型由自主工业软件训练数据建立；以及由关键词概率大于预设概率的至少一个词语抽取得到待提取关键词文档的至少一个关键词，其中，至少一个词语的数量根据文本长度和实际关键词概率确定。由此，解决了相关技术中心在抽取自主工业软件文本数据的关键词时，无法高效且准确地对文本数据进行关键词抽取，抽取效果较差，无法满足使用需求的技术问题。求的技术问题。求的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
用于自主工业软件文本数据的关键词抽取方法及装置

[0001]本申请涉及网络协同制造
，特别涉及一种用于自主工业软件文本数据的关键词抽取方法及装置。

技术介绍

[0002]自主工业软件是支撑企业发展的核心力量，而自主工业软件文本数据中蕴含着的大量和软件相关的知识，对相关文本数据进行处理是建设自主软件知识库的重要环节。文本关键词是对所属文本的高度概括、总结，方便用户快速判断文档主题内容和进行高效的检索，对知识库建设起重要支撑作用。然而，自主工业软件文本数据大多未经标注，如何高效准确地对这些文本数据进行关键词抽取，是建设自主工业软件知识库过程中亟待解决的关键问题。
[0003]相关技术中，常见的文本数据关键词抽取方法包括：
[0004]1)TF
‑
IDF(term frequency
–
inverse document frequency，词频
‑
逆文档频率)方法，该方法基于统计信息，但对于文档的主题信息利用较少。
[0005]2)LDA(Latent Dirichlet Allocation，线性判别分析)方法，该方法基于主题模型，但需要将主题数量设定为固定值，与实际不符。
[0006]3)TextRank(文档排名)方法，该方法基于词图模型，但存在计算复杂度高、忽略关键词语义相关性的缺点。
[0007]4)LSTM网络(Long Short
‑
Term Memory，长短期记忆网络)，该方法将关键词抽取...

【技术保护点】

【技术特征摘要】
1.一种用于自主工业软件文本数据的关键词抽取方法，其特征在于，包括以下步骤：获取自主工业软件的待提取关键词文档；将所述待提取关键词文档输入至预先训练的关键词抽取模型，获取所述待提取关键词文档中每个词语对应的关键词概率，其中，所述关键词抽取模型由自主工业软件训练数据建立；以及由所述关键词概率大于预设概率的至少一个词语抽取得到所述待提取关键词文档的至少一个关键词，其中，所述至少一个词语的数量根据文本长度和实际关键词概率确定。2.根据权利要求1所述的方法，其特征在于，所述将所述待提取关键词文档输入至预先训练的关键词抽取模型，包括：基于skip
‑
gram模型和Glove模型分别获取所述待提取关键词文档的skip
‑
gram词向量矩阵和Glove词向量矩阵；基于TF
‑
IDF模型获取所述待提取关键词文档的文本向量；将所述skip
‑
gram词向量矩阵、所述Glove词向量矩阵和所述文本向量输入至所述关键词抽取模型。3.根据权利要求2所述的方法，其特征在于，在将所述待提取关键词文档输入至所述预先训练的关键词抽取模型之前，还包括：由Fusion_Embedding层神经网络与BiLSTM层神经网络串联，并与TF
‑
IDF层神经网络并联，建立初始关键词抽取模型；利用所述自主工业软件训练数据集训练所述初始关键词抽取模型，得到所述预先训练的关键词抽取模型。4.根据权利要求3所述的方法，其特征在于，所述获取所述待提取关键词文档中每个词语对应的关键词概率，包括：利用所述Fusion_Embedding层神经网络融合所述skip
‑
gram词向量矩阵和Glove词向量矩阵，生成融合词向量矩阵；利用所述TF
‑
IDF层神经网络对所述文本向量进行特征降维处理，得到处理后的文本向量；由所述融合词向量矩阵和所述处理后的文本向量得到所述每个词语对应的关键词概率。5.根据权利要求1
‑
4任一项所述的方法，其特征在于，所述每个词语对应的关键词概率的计算...

【专利技术属性】
技术研发人员：王立平，王冬，李学崑，蔡恩磊，张超，史慧杰，
申请(专利权)人：清华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人