System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机领域的文本自动处理,具体涉及一种多粒度语义增强表示的中文关键词抽取方法及装置。
技术介绍
1、关键词抽取是指从文本中自动抽取出主题性或重要性的词或短语,能帮助人们快速了解文档的主题思想和主要内容,是文本检索、文本摘要、意见挖掘、自动推荐等自然语言处理任务和信息检索任务的基础性和必要性工作。随着信息技术的发展,人们步入了信息爆炸时代,数据的快速增长远远超过了人类的阅读和理解能力,因此如何从大量文本数据中自动抽取出关键词是当下的研究重点和难点。
2、目前的关键词抽取方法主要是直接利用预训练语言模型从海量语料中学习到的通用语言表示来进行关键词抽取。虽然上述方法取得了很好的效果,但其还存在两方面的问题:一方面是存在无法根据下游任务特性进行领域适配的问题,目前的预训练语言模型主要是基于大规模通用领域语料训练的,这些通用领域的语料并不能涵盖下游任务的特定领域知识。当该类预训练语言模型应用于特定领域的关键词自动抽取任务中时,它们往往因为难以理解特定任务的具体需求而无法充分发挥其强大的语义表示作用,导致其抽取出任务相关关键词的准确性不高。另一方面是存在单模态信息语义表征能力有限的问题,目前的预训练语言模型主要是利用单一的文本数据进行训练,大都关注文本中词语之间的语义关系。但是中文是以象形为基础的文字,往往通过字形图像来表达物体、动作和抽象概念等的特征或本质。随着人们更多地关注汉字表达和传递的信息,汉字的字形逐渐从具体的物象转变为抽象的符号,这使得汉字中的部分偏旁部首用于表意。例如:“言”字表达了言语、说话的意义,
技术实现思路
1、本专利技术要解决的技术问题:针对现有技术的上述问题,提供一种多粒度语义增强表示的中文关键词抽取方法及装置,本专利技术旨在基于包括偏旁部首信息、汉字图像信息的多粒度信息增强文本语义表示以提升中文关键词抽取任务的效果。
2、为了解决上述技术问题,本专利技术采用的技术方案为:
3、一种多粒度语义增强表示的中文关键词抽取方法,包括采用预先训练好的中文关键词抽取网络模型从输入的中文文本中提取关键词,所述中文关键词抽取网络模型包括依次相连的领域自适应模块、视觉语义增强表示模块和关键词排序模块,所述领域自适应模块用于从中文文本中提取偏旁部首特征,并利用bert-wwm模型的变换器层之间的适配器层将偏旁部首特征融入到bert-wwm模型,从而得到中文文本的领域自适应文本特征;所述视觉语义增强表示模块用于从中文文本提取字符的字形特征,并结合领域自适应模块输出的特征基于交叉注意力层进行视觉语义增强,所述关键词排序模块用于将视觉语义增强表示模块输出的视觉语义增强表示输入到crf模型中预测标签序列并标注候选关键词,采用词频-位置权重对crf模型标注出来的候选关键词进行排序,并选取前k个候选关键词作为从中文文本中提取的关键词。
4、可选地,所述从中文文本中提取偏旁部首特征包括:对于中文文本中的各个字符分别通过拆字词典获得其偏旁部首,并随机初始化偏旁部首的特征获得偏旁部首向量矩阵;采用大小为 k的卷积核在偏旁部首向量矩阵上以指定的步长滑动进行二维卷积操作,最后通过最大池化层得到偏旁部首特征。
5、可选地,所述适配器层包括前馈层、连接层和层归一化层,所述前馈层用于将从中文文本中提取偏旁部首特征与bert-wwm模型中上一层变换器层输出的特征进行对齐,所述连接层用于将bert-wwm模型中上一层变换器层输出的特征、对齐后的偏旁部首特征连接以实现特征融合,所述层归一化层用于将融合后的特征进行层归一化处理后输出以作为bert-wwm模型中下一层变换器层的输入。
6、可选地,所述从中文文本中提取字符的字形特征包括:对于中文文本中的各个字符分别获取不同时期和不同写作风格的文字图片得到图片序列,然后将图片序列中的图片输入到预先训练好的卷积神经网络cnn中提取字形特征,所述卷积神经网络cnn包括依次相连的卷积层、最大池化层和分组卷积层,卷积神经网络cnn中提取字形特征包括:通过卷积层用指定大小的卷积核进行卷积以捕获较低级的图形特征,接着通过最大池化层执行最大池化操作将较低级的图形特征降为2×2大小以捕获更小尺度的特征,最后通过分组卷积层用分组卷积得到图片的字形表征向量作为字形特征。
7、可选地,所述卷积神经网络cnn在训练时使用的损失函数的函数表达式为:
8、,
9、上式中, lossglyph表示卷积神经网络cnn在训练时使用的损失函数, q表示训练数据集中第 i个图像 vi的真实标签, p( q| vi)表示样本 vi在分类 q下的条件概率。
10、可选地,所述结合领域自适应模块输出的特征基于交叉注意力层进行视觉语义增强包括:首先将领域自适应模块输出的特征 hl作为交叉注意力机制的查询,将从中文文本中提取的字形特征 eglyph分别作为交叉注意力机制的键和值,通过执行交叉注意力机制得到视觉增强的注意输出特征 ev;然后将领域自适应模块输出的特征 hl和视觉增强的注意输出特征 ev连接起来输入到前馈神经网络中,获得最终输出的视觉语义增强表示。
11、可选地,所述将视觉语义增强表示模块输出的视觉语义增强表示输入到crf模型中预测标签序列并标注候选关键词,采用词频-位置权重对crf模型标注出来的候选关键词进行排序,并选取前k个候选关键词作为从中文文本中提取的关键词包括:
12、步骤1,将视觉语义增强表示模块输出的视觉语义增强表示输入到crf模型中预测标签序列,其中 y1~ yn分别表示第1~ n个预测标签, n为预测标签序列长度;给定一组输入序列,crf模型通过最大化训练数据的对数似然函数学习输入特征和标签之间的关系,得到如下式所示的 m个标签序列的条件概率:
13、,
14、上式中,为条件概率,为输入序列,为输出标签序列,为第 i个标签序列的权重 ,为第 本文档来自技高网...
【技术保护点】
1.一种多粒度语义增强表示的中文关键词抽取方法,其特征在于,包括采用预先训练好的中文关键词抽取网络模型从输入的中文文本中提取关键词,所述中文关键词抽取网络模型包括依次相连的领域自适应模块、视觉语义增强表示模块和关键词排序模块,所述领域自适应模块用于从中文文本中提取偏旁部首特征,并利用BERT-WWM模型的变换器层之间的适配器层将偏旁部首特征融入到BERT-WWM模型中,从而得到中文文本的领域自适应文本特征;所述视觉语义增强表示模块用于从中文文本中提取字符的字形特征,并通过交叉注意力层结合领域自适应模块输出的特征进行视觉语义增强,所述关键词排序模块用于将视觉语义增强表示模块输出的视觉语义增强表示输入到CRF模型中预测标签序列并标注候选关键词,随后采用词频-位置权重对CRF模型标注出来的候选关键词进行排序,选取前K个候选关键词作为从中文文本中提取的关键词。
2.根据权利要求1所述的多粒度语义增强表示的中文关键词抽取方法,其特征在于,所述从中文文本中提取的偏旁部首特征包括:对于中文文本中的各个字符分别通过拆字词典获得其偏旁部首,并随机初始化偏旁部首的特征获得偏旁部首向量矩阵
3.根据权利要求1所述的多粒度语义增强表示的中文关键词抽取方法,其特征在于,所述适配器层包括前馈层、连接层和层归一化层,所述前馈层用于将从中文文本中提取的偏旁部首特征与BERT-WWM模型中上一层变换器层输出的上下文特征进行对齐,所述连接层用于将BERT-WWM模型中上一层变换器层输出的特征、对齐后的偏旁部首特征连接以实现特征融合,所述层归一化层用于将融合后的特征进行层归一化处理后输出以作为BERT-WWM模型中下一层变换器层的输入。
4.根据权利要求1所述的多粒度语义增强表示的中文关键词抽取方法,其特征在于,所述从中文文本中提取字符字形特征包括:对于中文文本中的各个字符分别获取不同时期和不同写作风格的文字图片得到图片序列,然后将图片序列中的图片输入到预先训练好的卷积神经网络CNN中提取字形特征,所述卷积神经网络CNN包括依次相连的卷积层、最大池化层和分组卷积层,卷积神经网络CNN中提取字形特征包括:通过卷积层用指定大小的卷积核进行卷积以捕获较低级的图形特征,接着通过最大池化层执行最大池化操作将较低级的图形特征降为2×2大小以捕获更小尺度的特征,最后通过分组卷积层用分组卷积得到图片的字形表征向量作为字形特征。
5.根据权利要求4所述的多粒度语义增强表示的中文关键词抽取方法,其特征在于,所述卷积神经网络CNN在训练时使用的损失函数的函数表达式为:
6.根据权利要求1所述的多粒度语义增强表示的中文关键词抽取方法,其特征在于,所述结合领域自适应模块输出的特征基于交叉注意力层进行视觉语义增强包括:首先将领域自适应模块输出的特征HL作为交叉注意力机制的查询,将从中文文本中提取的字形特征EGlyph分别作为交叉注意力机制的键和值,通过执行交叉注意力机制得到视觉增强的注意输出特征Ev;然后将领域自适应模块输出的特征HL和视觉增强的注意输出特征Ev连接起来输入到前馈神经网络中,获得最终输出的视觉语义增强表示。
7.根据权利要求1所述的多粒度语义增强表示的中文关键词抽取方法,其特征在于,所述将视觉语义增强表示模块输出的视觉语义增强表示输入到CRF模型中预测标签序列并标注候选关键词,采用词频-位置权重对CRF模型标注出来的候选关键词进行排序,并选取前K个候选关键词作为从中文文本中提取的关键词包括:
8.一种多粒度语义增强表示的中文关键词抽取装置,包括相互连接的微处理器和存储器,其特征在于,所述微处理器被编程或配置以执行权利要求1~7中任意一项所述多粒度语义增强表示的中文关键词抽取方法。
9.一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序/指令,其特征在于,该算机程序/指令被编程或配置以通过处理器执行权利要求1~7中任意一项所述多粒度语义增强表示的中文关键词抽取方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该算机程序/指令被编程或配置以通过处理器执行权利要求1~7中任意一项所述多粒度语义增强表示的中文关键词抽取方法。
...【技术特征摘要】
1.一种多粒度语义增强表示的中文关键词抽取方法,其特征在于,包括采用预先训练好的中文关键词抽取网络模型从输入的中文文本中提取关键词,所述中文关键词抽取网络模型包括依次相连的领域自适应模块、视觉语义增强表示模块和关键词排序模块,所述领域自适应模块用于从中文文本中提取偏旁部首特征,并利用bert-wwm模型的变换器层之间的适配器层将偏旁部首特征融入到bert-wwm模型中,从而得到中文文本的领域自适应文本特征;所述视觉语义增强表示模块用于从中文文本中提取字符的字形特征,并通过交叉注意力层结合领域自适应模块输出的特征进行视觉语义增强,所述关键词排序模块用于将视觉语义增强表示模块输出的视觉语义增强表示输入到crf模型中预测标签序列并标注候选关键词,随后采用词频-位置权重对crf模型标注出来的候选关键词进行排序,选取前k个候选关键词作为从中文文本中提取的关键词。
2.根据权利要求1所述的多粒度语义增强表示的中文关键词抽取方法,其特征在于,所述从中文文本中提取的偏旁部首特征包括:对于中文文本中的各个字符分别通过拆字词典获得其偏旁部首,并随机初始化偏旁部首的特征获得偏旁部首向量矩阵;采用大小为k的卷积核在偏旁部首向量矩阵上以指定的步长滑动进行二维卷积操作,最后通过最大池化层得到偏旁部首特征。
3.根据权利要求1所述的多粒度语义增强表示的中文关键词抽取方法,其特征在于,所述适配器层包括前馈层、连接层和层归一化层,所述前馈层用于将从中文文本中提取的偏旁部首特征与bert-wwm模型中上一层变换器层输出的上下文特征进行对齐,所述连接层用于将bert-wwm模型中上一层变换器层输出的特征、对齐后的偏旁部首特征连接以实现特征融合,所述层归一化层用于将融合后的特征进行层归一化处理后输出以作为bert-wwm模型中下一层变换器层的输入。
4.根据权利要求1所述的多粒度语义增强表示的中文关键词抽取方法,其特征在于,所述从中文文本中提取字符字形特征包括:对于中文文本中的各个字符分别获取不同时期和不同写作风格的文字图片得到图片序列,然后将图片序列中的图片输入到预先训练好的卷积神经网络cnn中提取字形特征,所...
【专利技术属性】
技术研发人员:周炫余,刘林,卢笑,李璇,郭宇,杨宇霏,张思敏,王紫璇,
申请(专利权)人:湖南师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。