关键词的生成方法、装置、设备和介质制造方法及图纸

技术编号:36576908 阅读:24 留言:0更新日期:2023-02-04 17:35
本公开提供一种关键词的生成方法、装置、设备和介质,所述方法包括:通过预置的文本编码器对文本向量进行编码,获得文本隐向量,其中,所述文本向量通过对待处理的文本进行预处理得到;通过预置的句法编码器对词性向量进行编码,得到句法隐向量,其中,所述词性向量通过对所述待处理的文本进行句法分析得到;将所述文本隐向量和所述句法隐向量进行融合,得到融合向量;通过预置的解码器对所述融合向量进行解码,得到单词的概率分布;根据所述单词的概率分布生成所述关键词。本公开的技术方案可以提高预测关键词的准确率。提高预测关键词的准确率。提高预测关键词的准确率。

【技术实现步骤摘要】
关键词的生成方法、装置、设备和介质


[0001]本公开涉及数据处理
,尤其涉及一种关键词的生成方法、装置、电子设备和非暂态计算机可读存储介质。

技术介绍

[0002]关键词可以直接描述文章的核心内容,在信息抽取、文档分类、智能对话等多个自然语言处理任务中有着广泛的应用。因此,关键词提取技术一直是学术界和工业界的研究热点。
[0003]在各种关键词提取技术中,目前最优的技术是基于深度学习的关键词生成方法。具体来讲,在基于深度学习的关键词生成方法中,可以应用编码器和解码器在语义理解的基础上生成目标关键词。编码器的作用是将输入的文本序列压缩为一个包含语义特征的文本向量。解码器的作用将编码器得到的文本向量解压为最后的预测输出。
[0004]在上述关键词生成方法中,关键词的预测完全依赖于数据的端到端的深度学习模型。相关技术中的深度学习模型的输入只有单一维度的文本信息,而生成关键词往往需要综合考虑多个维度的信息,尽管深度学习模型有很强的拟合和学习能力,但仅仅依赖文本数据和深度学习模型本身难以完全学习到多个维度的特征。这样,生成的关键词准确率会随之大大降低。

技术实现思路

[0005]本公开提供一种关键词的生成方法、装置、电子设备和非暂态计算机可读存储介质,用以解决现有技术中预测关键词时准确率较低的缺陷,提高预测关键词的准确率。
[0006]本公开提供一种关键词的生成方法,包括:通过预置的文本编码器对文本向量进行编码,获得文本隐向量,其中,所述文本向量通过对待处理的文本进行预处理得到;通过预置的句法编码器对词性向量进行编码,得到句法隐向量,其中,所述词性向量通过对所述待处理的文本进行句法分析得到;将所述文本隐向量和所述句法隐向量进行融合,得到融合向量;通过预置的解码器对所述融合向量进行解码,得到单词的概率分布;根据所述单词的概率分布生成所述关键词。
[0007]根据本公开提供的一种关键词的生成方法,所述通过预置的文本编码器对文本向量进行编码之前,所述方法还包括:对所述待处理的文本进行分词,得到所述待处理的文本对应的词序列;根据词嵌入矩阵和所述词序列得到所述文本向量。
[0008]根据本公开提供的一种关键词的生成方法,所述通过预置的句法编码器对词性向量进行编码之前,所述方法还包括:对所述待处理的文本进行句法分析,得到所述待处理的文本的句法结构和单词间的依存关系;根据词性嵌入矩阵、所述句法结构和所述依存关系得到所述词性向量。
[0009]根据本公开提供的一种关键词的生成方法,所述通过预置的句法编码器对词性向量进行编码,得到句法隐向量,包括:根据所述词性向量获取节点间的句法关联值,其中,所
述节点为根据所述依存关系构建的图中的节点,所述图还包括根据所述依存关系连接所述节点的边;根据所述句法关联值获取各个节点的重要度;根据所述重要度和所述节点获取所述句法隐向量。
[0010]根据本公开提供的一种关键词的生成方法,所述将所述文本隐向量和所述句法隐向量进行融合,得到融合向量,包括:根据所述文本隐向量和所述句法隐向量加权求和后的正切值得到所述融合向量。
[0011]根据本公开提供的一种关键词的生成方法,所述通过预置的解码器对所述融合向量进行解码,得到单词的概率分布,包括:根据所述融合向量生成编码向量;根据当前时刻解码器生成的解码隐向量和所述编码向量生成投影向量;根据所述投影向量获取所述单词的概率分布。
[0012]根据本公开提供的一种关键词的生成方法,所述根据所述融合向量生成编码向量,包括:获取当前单词与所述待处理的文本中的各个单词的匹配度;根据所述匹配度获取所述融合向量的权值;根据融合向量和所述权值获取所述编码向量。
[0013]本公开还提供一种关键词的生成装置,所述检测装置包括:文本编码单元,用于通过预置的文本编码器对文本向量进行编码,获得文本隐向量,其中,所述文本向量通过对待处理的文本进行预处理得到;句法编码单元,用于通过预置的句法编码器对词性向量进行编码,得到句法隐向量,其中,所述词性向量通过对所述待处理的文本进行句法分析得到;融合单元,用于将所述文本隐向量和所述句法隐向量进行融合,得到融合向量;解码单元,用于通过预置的解码器对所述融合向量进行解码,得到单词的概率分布;生成单元,用于根据所述单词的概率分布生成所述关键词。
[0014]根据本公开提供的一种关键词的生成装置,所述装置还包括第一处理单元,用于对所述待处理的文本进行分词,得到所述待处理的文本对应的词序列,并根据词嵌入矩阵和所述词序列得到所述文本向量。
[0015]根据本公开提供的一种关键词的生成装置,所述装置还包括第二处理单元,用于对所述待处理的文本进行句法分析,得到所述待处理的文本的句法结构和单词间的依存关系,并根据词性嵌入矩阵、所述句法结构和所述依存关系得到所述词性向量。
[0016]根据本公开提供的一种关键词的生成装置,所述句法编码单元包括:第一获取子单元,用于根据所述词性向量获取节点间的句法关联值,其中,所述节点为根据所述依存关系构建的图中的节点,所述图还包括根据所述依存关系连接所述节点的边;第二获取子单元,用于根据所述句法关联值获取各个节点的重要度;第三获取子单元,用于根据所述重要度和所述节点获取所述句法隐向量。
[0017]根据本公开提供的一种关键词的生成装置,所述融合单元还用于根据所述文本隐向量和所述句法隐向量加权求和后的正切值得到所述融合向量。
[0018]根据本公开提供的一种关键词的生成装置,所述解码单元包括第一生成子单元,用于根据所述融合向量生成编码向量;第二生成子单元,用于根据当前时刻解码器生成的解码隐向量和所述编码向量生成投影向量;第四获取子单元,用于根据所述投影向量获取所述单词的概率分布。
[0019]根据本公开提供的一种关键词的生成装置,所述第一生成子单元还用于获取当前单词与所述待处理的文本中的各个单词的匹配度,并根据所述匹配度获取所述融合向量的
权值,以及根据融合向量和所述权值获取所述编码向量。
[0020]本公开还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述关键词的生成方法的步骤。
[0021]本公开还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述关键词的生成方法的步骤。
[0022]本公开提供的关键词的生成方法、装置、电子设备和非暂态计算机可读存储介质,通过对文本向量和词性向量分别进行编码,并对编码结果进行融合、解码后,根据解码结果生成关键词,提出了一种基于并行网络的关键词生产方案,可以将文本的句法信息融合到关键词生产过程中,相比较现有技术,可以提高关键词的预测准确率。
附图说明
[0023]为了更清楚地说明本公开或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词的生成方法,其特征在于,所述方法包括:通过预置的文本编码器对文本向量进行编码,获得文本隐向量,其中,所述文本向量通过对待处理的文本进行预处理得到;通过预置的句法编码器对词性向量进行编码,得到句法隐向量,其中,所述词性向量通过对所述待处理的文本进行句法分析得到;将所述文本隐向量和所述句法隐向量进行融合,得到融合向量;通过预置的解码器对所述融合向量进行解码,得到单词的概率分布;根据所述单词的概率分布生成所述关键词。2.根据权利要求1所述的方法,其特征在于,所述通过预置的文本编码器对文本向量进行编码之前,所述方法还包括:对所述待处理的文本进行分词,得到所述待处理的文本对应的词序列;根据词嵌入矩阵和所述词序列得到所述文本向量。3.根据权利要求1所述的方法,其特征在于,所述通过预置的句法编码器对词性向量进行编码之前,所述方法还包括:对所述待处理的文本进行句法分析,得到所述待处理的文本的句法结构和单词间的依存关系;根据词性嵌入矩阵、所述句法结构和所述依存关系得到所述词性向量。4.根据权利要求3所述的方法,其特征在于,所述通过预置的句法编码器对词性向量进行编码,得到句法隐向量,包括:根据所述词性向量获取节点间的句法关联值,其中,所述节点为根据所述依存关系构建的图中的节点,所述图还包括根据所述依存关系连接所述节点的边;根据所述句法关联值获取各个节点的重要度;根据所述重要度和所述节点获取所述句法隐向量。5.根据权利要求1所述的方法,其特征在于,所述将所述文本隐向量和所述句法隐向量进行融合,得到融合向量,包括:根据所述文本隐向量和所述...

【专利技术属性】
技术研发人员:赵靖
申请(专利权)人:京东科技控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1