【技术实现步骤摘要】
一种关键词抽取方法及装置和编码器和解码器
[0001]本申请涉及但不限于信息处理技术,尤指一种关键词抽取方法及装置和编码器和解码器。
技术介绍
[0002]关键词抽取是在给定一段较长文本的情况下,通过某些手段提取出文本所要表达的核心内容,从而在大量信息中准确、快速地提取出关键信息。这些关键词可以是具有特定意义的实体、也可以是一些基础概念或者事件。抽取出的关键词可以采用关键词序列来表示,关键词序列可以按照置信度依次列出,置信度越高其排序越靠前。抽取出的关键词序列可以被应用到如游记、笔记、新闻等不同领域文章的主题标签标注,以及文献检索、推荐系统中。
[0003]相关技术中,一种方式是采用词频
‑
逆向文件频率(TF
‑
IDF,Term Frequency
‑
Inverse Document Frequency)、用于文本的基于图的排序算法(TextRank)等方法来抽取关键词。这种方式大致包括:从原文中依据一定的规则选择部分短语作为关键词候选,而后通过有监督或无监督的方法训练一个短语排序模型来进行关键词选择。这种方式过于依赖人工编写的规则,而且总体效果不够好。
[0004]另一种方式是基于序列到序列模型抽取关键词,但是,这种方式面临着两个问题:1)如何产生一个足够好的文档表示,以反映出原始文档中对关键词抽取最重要的关键语义信息;2)如何建模关键词集合中关键词间的关系,即如何更好地学习条件概率P(y
n
|y
<nr/>),其中,y
n
是当前需要产生的关键词,y
<n
是已经生成的关键词序列。其中,序列到序列模型是一种起源于神经机器翻译领域的神经网络生成模型框架,适用于输入和输出都是文本序列的问题场景,包括编码器和解码器两个部分;编码器用于将输入文本序列编码为向量语义表示(本文中也称为文档表示),解码器则通过注意力机制等方式与编码器输出进行交互,依次产生输出序列的每个词。
技术实现思路
[0005]本申请提供一种关键词抽取方法及装置,能够提升文档编码效果,从而产生准确的关键词。
[0006]本专利技术实施例提供了一种关键词抽取方法,包括:
[0007]根据待处理文档的句法信息和当前时刻已生成的关键词信息进行编码处理,获取当前时刻的文档表示信息;
[0008]根据所述当前时刻的文档表示信息和所述当前时刻已生成的关键词信息进行解码处理,获取下一时刻的关键词信息。
[0009]在一种示例性实例中,所述待处理文档的句法信息通过如下方式获得:
[0010]从所述待处理文档中抽取出一个或多个句法树以构成句法树集合;
[0011]根据所述句法树集合,为所述待处理文档构建句法图,所述句法图的节点为所述
待处理文档中的词,所述句法图的有向边为所述待处理文档中词与词之间的依赖边。
[0012]在一种示例性实例中,所述根据待处理文档的句法信息和当前时刻已生成的关键词信息进行编码处理,获取当前时刻的文档表示信息,包括:
[0013]根据所述当前时刻已生成的关键词信息更新所述待处理文档的句法图信息,获得当前时刻所述句法图中有向边的边权重;
[0014]根据原始文档中每个词的词表示向量更新所述句法图中节点表示向量;
[0015]根据所述节点表示向量和有向边的边权重得到当前时刻的文档表示信息。
[0016]在一种示例性实例中,所述根据所述当前时刻已生成的关键词信息更新所述待处理文档的句法图信息,获得当前时刻所述句法图中有向边的边权重,包括:
[0017]获得当前时刻已生成的关键词集合;
[0018]计算所述关键词集合的平均表示;
[0019]根据所述平均表示计算有向边的边权重。
[0020]在一种示例性实例中,根据所述平均表示计算有向边的边权重包括:
[0021]获得词i的词嵌入与词j的词嵌入;
[0022]获得词i与词j之间的依赖边类型的边类型嵌入;
[0023]根据所述词i的词嵌入、词j的词嵌入、词i与词j之间的依赖边类型的边类型嵌入,以及所述平均表示,计算词i与词j之间的边权重。
[0024]在一种示例性实例中,所述根据原始文档中每个词的词表示向量更新所述句法图中节点表示向量,包括:
[0025]将所述原始文档中的每个词表示为词嵌入;
[0026]通过拼接预先获得的词性标注对应的每个词的词性嵌入和位置信息对应的位置向量,得到每个词的词表示向量;
[0027]根据所述原始文档对应的词表示向量得到语序感知的文档表示;
[0028]根据所述语序感知的文档表示更新所述句法图中节点表示向量。
[0029]在一种示例性实例中,所述方法还包括:
[0030]合并所述原始文档中具有同样词根形式的所有节点。
[0031]在一种示例性实例中,所述根据所述当前时刻的文档表示信息和所述当前时刻已生成的关键词信息进行解码处理,获取下一时刻的关键词信息,包括:
[0032]根据所述文档表示信息、所述当前时刻已生成的关键词信息、以及当前时刻关键词的已生成词,预测当前时刻关键词的待生成词。
[0033]在一种示例性实例中,所述预测当前时刻关键词的待生成词,包括:
[0034]根据所述文档表示信息、所述当前时刻已生成的关键词信息、以及当前时刻关键词的已生成词,获取在所述文档表示信息中文档的词的预测概率分布;
[0035]基于集束搜索,根据得到的预测概率分布确定当前时刻关键词的下一个词。
[0036]在一种示例性实例中,所述获取在所述文档表示信息中文档的词的预测概率分布,包括:
[0037]如果预测第n个关键词的第一个词,将所述文档表示信息输入门限线性单元GLU,得到用于初始化门控循环单元GRU隐状态的当前时刻的上下文向量;
[0038]如果在预测第n个关键词的第i个词,将所述文档表示信息、所述当前时刻已生成
的关键词,以及第n个关键词中已生成的词输入GLU,计算得到GRU隐状态s
i
;
[0039]根据GRU隐状态s
i
和所述文档表示信息计算注意力权重,以获得所述文档表示信息中词的预测概率分布。
[0040]在一种示例性实例中,还包括:
[0041]对所述集束搜索中前一时刻同一词产生的L个后代节点,以其预测顺序作为惩罚,将经过惩罚的对数概率作为当前时刻得分,来确定下一时刻的候选序列;其中,L为待处理文档中词的数量;
[0042]和/或,
[0043]对比所述集束搜索中所有词的候选序列和当前时刻已生成的关键词序列,对相同的N元语法N
‑
Gram进行惩罚,使用带有惩罚项的序列得分函数来确定下一时刻的候选序列。
[0044]本申请实施例还提供一种计算机可读存储介质,存储有计算本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种关键词抽取方法,包括:根据待处理文档的句法信息和当前时刻已生成的关键词信息进行编码处理,获取当前时刻的文档表示信息;根据所述当前时刻的文档表示信息和所述当前时刻已生成的关键词信息进行解码处理,获取下一时刻的关键词信息。2.根据权利要求1所述的关键词抽取方法,所述待处理文档的句法信息通过如下方式获得:从所述待处理文档中抽取出一个或多个句法树以构成句法树集合;根据所述句法树集合,为所述待处理文档构建句法图,所述句法图的节点为所述待处理文档中的词,所述句法图的有向边为所述待处理文档中词与词之间的依赖边。3.根据权利要求2所述的关键词抽取方法,所述根据待处理文档的句法信息和当前时刻已生成的关键词信息进行编码处理,获取当前时刻的文档表示信息,包括:根据所述当前时刻已生成的关键词信息更新所述待处理文档的句法图信息,获得当前时刻所述句法图中有向边的边权重;根据原始文档中每个词的词表示向量更新所述句法图中节点表示向量;根据所述节点表示向量和有向边的边权重得到当前时刻的文档表示信息。4.根据权利要求3所述的关键词抽取方法,所述根据所述当前时刻已生成的关键词信息更新所述待处理文档的句法图信息,获得当前时刻所述句法图中有向边的边权重,包括:获得当前时刻已生成的关键词集合;计算所述关键词集合的平均表示;根据所述平均表示计算有向边的边权重。5.根据权利要求4所述的关键词抽取方法,根据所述平均表示计算有向边的边权重包括:获得词i的词嵌入与词j的词嵌入;获得词i与词j之间的依赖边类型的边类型嵌入;根据所述词i的词嵌入、词j的词嵌入、词i与词j之间的依赖边类型的边类型嵌入,以及所述平均表示,计算词i与词j之间的边权重。6.根据权利要求3所述的关键词抽取方法,所述根据原始文档中每个词的词表示向量更新所述句法图中节点表示向量,包括:将所述原始文档中的每个词表示为词嵌入;通过拼接预先获得的词性标注对应的每个词的词性嵌入和位置信息对应的位置向量,得到每个词的词表示向量;根据所述原始文档对应的词表示向量得到语序感知的文档表示;根据所述语序感知的文档表示更新所述句法图中节点表示向量。7.根据权利要求3所述的关键词抽取方法,所述方法还包括:合并所述原始文档中具有同样词根形式的所有节点。8.根据权利要求1
‑
7中任一项所述的关键词抽取方法,其中,所述根据所述当前时刻的文档表示信息和所述当前时刻已生成的关键词信息进行解码处理,获取下一时刻的关键词信息,包括:
根据所述文档表示信息、所述当前时刻已生成的关键词信息、以及当前时刻关键词的已生成词,预测当前时刻关键词的待生成词。9.根据权利要求8所述的关键词抽取方法,其中,所述预测当前时刻关键词的待生成词,包括:根据所述文档表示信息、所述当前时刻已生成的关键词信息、以及当前时刻关键词的已生成词,获取在所述文档表示信息中文档的词的预测概率分布;基于集束搜索,根据得到的预测概率分布确定当前时刻关键词的下一个词。10.根据权利要求9所述的关键词抽取方法,其中,所述获取在所述文档表示信息中文档的词的预测概率分布,包括:如果预测第n个关键词的第一个词,将所述文档表示信息输入门限线性单元GLU,得到用于初始化门控循环单元GRU隐状态的当前时刻的上下文向量;如果在预测第n个关键词的第i个词,将所述文档表示信息、所述当前时刻已生成的关键词,以及第n个关键词中已生成的词输入GLU,计算得到GRU隐状态s
i
;根据GRU隐状态s
i
和所述文档表示信息计算注意力权重,以获得所述文档表示信息中词的预测概率分布。11.根据权利要求9所述的关键词抽取方法,还包括:对所述集束搜索中前一时刻同一词产生的L个后代节点,以其预测顺序作为惩罚,将经过惩罚的对数概率作为当前时刻得分,来确定下一时刻的候选序列;其中,L为待处理文档中词的数量;和/或,对比所述集束搜索中所有词的候选序列和当前时刻已生成的关键词序列,对相同的N元语法N
‑
Gram进行惩罚,使用带有惩罚项的序列得分函数来确定下一时刻的候选序列。12.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1~权利要求11任一项所述的关键词抽取方法。13.一种实现滚关键词抽取的设备,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行权利要求1~权利要求11任...
【专利技术属性】
技术研发人员:张浩宇,龙定坤,徐光伟,王潇斌,谢朋峻,黄非,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。