System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及文本事件提取,尤其涉及一种基于多任务学习的文本事件提取方法及系统。
技术介绍
1、从文本中提取事件不仅有助于发现隐藏信息和识别趋势,还可以支持决策制定、应对紧急事件以及维护安全等。文本事件提取是一个复杂过程,包含了事件检测、摘要和提取等多个子任务。典型的方法是将几个任务分隔开,对于不同任务采用“机器学习+特征工程”独立实现,之后将不同的离散模型以“流水线”方式集合起来以达到目的。该方法在不同子任务中都会引入一定的误差,导致最终误差积累降低了事件提取准确度下降。并且各个子任务间的知识无法直接共享,对标记数据的质量和数量都提出了高要求。鉴于上述问题,本专利技术提出一种基于多任务学习的事件提取方法,旨在提升知识的利用率并提高事件提取的准确性。
2、针对文本中的事件提取问题,学者们提出了基于模式匹配的方法、统计机器学习的方法以及深度学习的方法等。模式匹配的方法在特定领域性能较好,知识表示清晰,便于理解,但是工作量大、代价高,领域移植性差;基于统计机器学习的方法能够自动学习文本模式和规律,缺点是对于复杂语境和新颖事件的泛化能力有限,并且需要显示的进行特征工程;基于深度学习的方法可以处理复杂语境和大规模数据并且不需要显示的人工特征设计,但缺点是需要大量标记数据。随着人工智能技术的发展,文本事件提出技术得到了长足的发展,面对抽取质量和标记数据需求问题,可以有针对性地选择和改进对应的方法。
3、以“流水线”方式将多个相关子任务模型集合的文本事件提取方法其准确性有待提高。具体来讲有以下几方面不足:一是子任务间
技术实现思路
1、为了解决上述问题,本专利技术提出一种基于多任务学习的文本事件提取方法及系统,通过关键词自动更新对文本进行初筛,过滤大量噪声且不漏掉新事件;针对“流水线”方法中子任务间误差积累以及知识无法共享的问题,提出了基于文本语义表示、事件提及检测、事件聚类、事件摘要和事件提取的多任务学习框架,完成几个子任务间的联合建模,实现不同任务之间的信息共享。
2、本专利技术采用的技术方案如下:
3、一种基于多任务学习的文本事件提取方法,包括:
4、基于训练集文本与预定义事件关键词的语义相似度和统计学特征,构建并更新事件典型关键词词典;基于事件典型关键词词典对训练集文本进行关键词匹配,并标记训练集文本的事件类型;
5、基于参数共享表示与神经堆叠方法构建多任务学习神经网络模型,所述多任务学习神经网络模型包括文本语义表示任务、事件提及检测任务、事件聚类任务、事件摘要任务和事件提取任务;
6、基于损失调和方法与处理后的训练集文本对多任务学习神经网络模型进行训练与优化,再基于训练好的多任务学习神经网络模型提取目标文本中的事件。
7、进一步地,所述基于训练集文本与预定义事件关键词的语义相似度和统计学特征,构建并更新事件典型关键词词典,基于事件典型关键词词典对训练集文本进行关键词匹配,包括:在训练集文本中查找种子关键词的最邻近词,即种子关键词在训练集文本中预设范围内的词;基于glove模型比对种子关键词及其最邻近词间的语义相似度,得到候选关键词集合;基于tf-idf方法对候选关键词进行过滤,从统计学角度排除无关词。
8、需要说明的是,上述关键字自动更新方法不仅能够发现与种子关键词语义相似的其他词,同时还能保证新发现的关键词和原来的种子关键词属于相同的类别,是本专利技术需要解决的问题和关键技术之一。此外,互联网上产生的文本数量数以万计构成了文本流,但是并非所有的文本都包含特定的事件信息,过多的文本会造成处理效率低等问题。因此,本专利技术基于上述的关键词对文本流进行初步过滤,仅保留包含了事件典型关键词的文本。
9、进一步地,所述基于参数共享表示与神经堆叠方法构建多任务学习神经网络模型,包括:通过参数共享表示方法进行任务间的文本语义知识共享,并通过神经堆叠方法将上个任务的输出作为下个任务的辅助输入,实现任务间的信息共享。
10、需要说明的是,关于文本语义表示任务,由于计算机并不能直接理解文字,故需将其转换成计算机可以直接处理的数据类型。本专利技术通过神经网络实现文本高层次语义表示,构建文本语义表示向量。
11、进一步地,所述事件提及检测任务包括:对待评估文本的语义表示向量进行处理,基于多任务学习神经网络模型的隐藏层输出,判断该待评估文本中包含的事件信息是否为某个事件类型。
12、需要说明的是,事件提及检测任务是一个二分类任务,目标是对于过滤后的文本流中传入的文本,确认其是否为关注的事件。
13、进一步地,所述事件聚类任务包括:基于增量聚类方法与曼哈顿距离公式,计算待评估文本的语义表示向量与已知事件集合间的相似度,并根据相似度将该待评估文本加入相应的事件集合中。
14、需要说明的是,事件聚类任务可将给定的尚未进行标记的文本根据相似性聚集成不同的事件集合,每个集合表示一个事件。
15、还需要说明的是,关于事件摘要任务。由于文本数据存在稀疏、冗余度高等问题,故在检测到事件后还需做摘要,即从事件集合中抽取出可以代表整个事件的小部分文本作为事件的总结描述。此外,关于事件提取任务是从文本中提取完全结构化的多个能表示事件的实体信息,包括事件发生时间以及事件中主要对象,并确定事件所属类别。
16、综上所述,本专利技术通过将文本语义表示任务、事件提及检测任务、事件聚类任务、事件摘要任务和事件提取任务进行多任务学习联合建模,可消除子任务间的误差积累和信息无法共享的问题,是本专利技术需要解决的问题和关键技术之一。
17、一种基于多任务学习的文本事件提取系统,包括:
18、文本预处理模块,被配置为基于训练集文本与预定义事件关键词的语义相似度和统计学特征,构建并更新事件典型关键词词典;基于事件典型关键词词典对训练集文本进行关键词匹配,并标记训练集文本的事件类型;
19、多任务学习构建模块,被配置为基于参数共享表示与神经堆叠方法构建多任务学习神经网络模型,所述多任务学习神经网络模型包括文本语义表示任务、事件提及检测任务、事件聚类任务、事件摘要任务和事件提取任务;
20、文本事件提取模块,被配置为基于损失调和方法与处理后的训练集文本对多任务学习神经网络模型进行训练与优化,再基于训练好的多任务学习神经网络模型提取目标文本中的事件。
21、进一步地,所述文本预处理模块中,基于训练集文本与预定义事件关键词的语义相似度和统计学特征,构建并更新事件典型关键词词典,基于事件典型关键词词典对训练集文本进行关键词匹配,包括:在训练集文本中查找种子关键词的最邻近词,即种子关键词在训练集文本中预设范围内的词;基于glove模型比对种子关键词及其最邻近词间的语义相似度,得到候选关键词集合;基于tf-idf方法对候选关键词进行过滤,从统计学本文档来自技高网...
【技术保护点】
1.一种基于多任务学习的文本事件提取方法,其特征在于,包括:
2.根据权利要求1所述的一种基于多任务学习的文本事件提取方法,其特征在于,所述基于训练集文本与预定义事件关键词的语义相似度和统计学特征,构建并更新事件典型关键词词典,基于事件典型关键词词典对训练集文本进行关键词匹配,包括:在训练集文本中查找种子关键词的最邻近词,即种子关键词在训练集文本中预设范围内的词;基于GloVe模型比对种子关键词及其最邻近词间的语义相似度,得到候选关键词集合;基于TF-IDF方法对候选关键词进行过滤,从统计学角度排除无关词。
3.根据权利要求1所述的一种基于多任务学习的文本事件提取方法,其特征在于,所述基于参数共享表示与神经堆叠方法构建多任务学习神经网络模型,包括:通过参数共享表示方法进行任务间的文本语义知识共享,并通过神经堆叠方法将上个任务的输出作为下个任务的辅助输入,实现任务间的信息共享。
4.根据权利要求1所述的一种基于多任务学习的文本事件提取方法,其特征在于,所述事件提及检测任务包括:对待评估文本的语义表示向量进行处理,基于多任务学习神经网络模型的隐藏层
5.根据权利要求1所述的一种基于多任务学习的文本事件提取方法,其特征在于,所述事件聚类任务包括:基于增量聚类方法与曼哈顿距离公式,计算待评估文本的语义表示向量与已知事件集合间的相似度,并根据相似度将该待评估文本加入相应的事件集合中。
6.一种基于多任务学习的文本事件提取系统,其特征在于,包括:
7.根据权利要求6所述的一种基于多任务学习的文本事件提取系统,其特征在于,所述文本预处理模块中,基于训练集文本与预定义事件关键词的语义相似度和统计学特征,构建并更新事件典型关键词词典,基于事件典型关键词词典对训练集文本进行关键词匹配,包括:在训练集文本中查找种子关键词的最邻近词,即种子关键词在训练集文本中预设范围内的词;基于GloVe模型比对种子关键词及其最邻近词间的语义相似度,得到候选关键词集合;基于TF-IDF方法对候选关键词进行过滤,从统计学角度排除无关词。
8.根据权利要求6所述的一种基于多任务学习的文本事件提取系统,其特征在于,所述多任务学习构建模块中,基于参数共享表示与神经堆叠方法构建多任务学习神经网络模型,包括:通过参数共享表示方法进行任务间的文本语义知识共享,并通过神经堆叠方法将上个任务的输出作为下个任务的辅助输入,实现任务间的信息共享。
9.根据权利要求6所述的一种基于多任务学习的文本事件提取系统,其特征在于,所述多任务学习构建模块中,事件提及检测任务包括:对待评估文本的语义表示向量进行处理,基于多任务学习神经网络模型的隐藏层输出,判断该待评估文本中包含的事件信息是否为某个事件类型。
10.根据权利要求6所述的一种基于多任务学习的文本事件提取系统,其特征在于,所述多任务学习构建模块中,事件聚类任务包括:基于增量聚类方法与曼哈顿距离公式,计算待评估文本的语义表示向量与已知事件集合间的相似度,并根据相似度将该待评估文本加入相应的事件集合中。
...【技术特征摘要】
1.一种基于多任务学习的文本事件提取方法,其特征在于,包括:
2.根据权利要求1所述的一种基于多任务学习的文本事件提取方法,其特征在于,所述基于训练集文本与预定义事件关键词的语义相似度和统计学特征,构建并更新事件典型关键词词典,基于事件典型关键词词典对训练集文本进行关键词匹配,包括:在训练集文本中查找种子关键词的最邻近词,即种子关键词在训练集文本中预设范围内的词;基于glove模型比对种子关键词及其最邻近词间的语义相似度,得到候选关键词集合;基于tf-idf方法对候选关键词进行过滤,从统计学角度排除无关词。
3.根据权利要求1所述的一种基于多任务学习的文本事件提取方法,其特征在于,所述基于参数共享表示与神经堆叠方法构建多任务学习神经网络模型,包括:通过参数共享表示方法进行任务间的文本语义知识共享,并通过神经堆叠方法将上个任务的输出作为下个任务的辅助输入,实现任务间的信息共享。
4.根据权利要求1所述的一种基于多任务学习的文本事件提取方法,其特征在于,所述事件提及检测任务包括:对待评估文本的语义表示向量进行处理,基于多任务学习神经网络模型的隐藏层输出,判断该待评估文本中包含的事件信息是否为某个事件类型。
5.根据权利要求1所述的一种基于多任务学习的文本事件提取方法,其特征在于,所述事件聚类任务包括:基于增量聚类方法与曼哈顿距离公式,计算待评估文本的语义表示向量与已知事件集合间的相似度,并根据相似度将该待评估文本加入相应的事件集合中。
6.一种基于多任务学习的文本事件提取...
【专利技术属性】
技术研发人员:程旗,陈丽琼,汤娟,徐强,
申请(专利权)人:四川九洲电器集团有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。