本发明专利技术公开了一种非结构化文本的事件抽取方法、系统及装置,所述方法包括:基于预先构建好的事件意图字典库对非结构化文本中的事件进行抽取,识别事件的事件类型,并基于预先构建好的事件角色字典库,对事件中的角色要素进行识别;根据事件类型和角色要素,对事件进行结构化存储。本发明专利技术通过配置字典的形式,使得问句中事件的解析更灵活,便于维护,易于扩展,避免了深度学习需要收集相关语料、标注、训练等复杂的工序。
【技术实现步骤摘要】
非结构化文本的事件抽取方法、系统及装置
本专利技术涉及人工智能自然语言处理
,尤其是涉及一种非结构化文本的事件抽取方法、系统及装置。
技术介绍
在现有技术中,事件抽取是把含有事件信息的非结构化文本以结构化的形式呈现出来,在自动文摘、自动问答、信息检索等领域有着广泛的应用。事件抽取技术的核心价值,是可以把半结构化、非结构化数据转换为对事件的结构化描述,进而支持丰富的下游应用。目前的实体识别主要采取机器学习、深度学习,但是都存在不足之处:(1)基于深度学习、机器学习的方法,首先需要收集前期的训练语料,然后进行标注,然而,对于金融、保险、石化等垂直领域,所需的标注语料是非常稀缺的,从而增加了该技术方案落地的困难性;同时,深度学习的效果存在很大的不稳定因素,准确率难以把控;(2)基于深度学习、机器学习的方法,对于事件类型的增加则比较繁琐,需要从新训练,效率低下。因此目前亟需一种新的非结构化文本事件抽取方法。
技术实现思路
本专利技术的目的在于提供一种非结构化文本的事件抽取方法、系统及装置,旨在解决现有技术中的上述问题。本专利技术提供一种非结构化文本的事件抽取方法,包括:基于预先构建好的事件意图字典库对非结构化文本中的事件进行抽取,识别事件的事件类型,并基于预先构建好的事件角色字典库,对事件中的角色要素进行识别;根据事件类型和角色要素,对事件进行结构化存储。本专利技术提供一种非结构化文本的事件抽取系统,包括:解析层,用于基于预先构建好的事件意图字典库对非结构化文本中的事件进行抽取,识别事件的事件类型,并基于预先构建好的事件角色字典库,对事件中的角色要素进行识别;应用层,用于根据事件类型和角色要素,对事件进行结构化存储。本专利技术实施例还提供一种非结构化文本的事件抽取装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现上述非结构化文本的事件抽取方法的步骤。本专利技术实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有信息传递的实现程序,程序被处理器执行时实现上述非结构化文本的事件抽取方法的步骤。采用本专利技术实施例,在特定领域中性能较好,知识表示简洁,便于理解和后续应用;本专利技术实施例通过配置字典的形式,使得问句中事件的解析更灵活,便于维护,易于扩展,避免了深度学习需要收集相关语料、标注、训练等复杂的工序。此外,本专利技术实施例基于规则的方式,在领域内能够实现较高的事件识别准确率,避免了基于深度学习的不稳定性。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例的非结构化文本的事件抽取方法的示意图;图2是本专利技术实施例的非结构化文本的事件抽取方法详细处理的示意图;图3是本专利技术实施例的非结构化文本的事件抽取系统的示意图;图4是本专利技术实施例的非结构化文本的事件抽取装置的示意图。具体实施方式本专利技术实施例的技术方案意在通过规则和字典相结合的方法,实现非结构化文本中事件的抽取。通过事件意图字典,识别出文本是否含具有表述事件的意图;对于事件中具体角色的识别则是通过定义相对对应的角色字典,通过角色字典识别事件的各个角色。在本专利技术实施例中,基于规则和字典的事件抽取解析方法总共分为三个部分,数据层、解析层以及应用层。数据层主要为梳理相关的事件类型,以及各个事件类型的事件角色;然后通过文本数据,整理出各个事件类型的规则字典,构成事件意图字典库;同时,由业务专家给出各个事件下的业务领域内关注的事件角色要素,构成事件角色字典库;解析层主要是利用整理好的规则字典库,对文本中的事件进行抽取。意图字典库识别出文本中的事件类型,然后通过事件角色字典库识别出事件的各个角色要素。应用层主要对抽取的事件进行结构化存储,以便于上层应用的使用。下面将结合实施例对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本专利技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。此外,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。方法实施例根据本专利技术实施例,提供了一种非结构化文本的事件抽取方法,图1是本专利技术实施例的非结构化文本的事件抽取方法的流程图,在执行如图1所示的处理步骤之前,首先需要进行如下准备处理:构建事件意图字典库和事件角色字典库,具体包括:根据业务需要定义从非结构化文本中抽取的事件类型以及与各个事件类型对应的角色元素;根据定义的事件类型,从非结构化文本整理出对应的事件类型规则,根据事件类型和事件类型规则构建事件意图字典库;根据定义的与各个事件类型对应的角色元素,整理业务领域内的事件角色实例,根据角色元素和事件角色实例构建事件角色字典库,其中,事件角色字典库与相应的事件类型相对应,具体包括:人物字典、人物职务字典、和/或地点字典。在本专利技术实施例中,在事件意图字典库和事件角色字典库运行一段时间且积累了足够的语料之后,利用得到的结构化数据进行语料标注,并利用深度学习的方法对新的事件类型规则和事件角色实例进行深度挖掘,更新事件意图字典库和事件角色字典库。如图1所示,根据本专利技术实施例的非结构化文本的事件抽取方法具体包括:步骤101,基于预先构建好的事件意图字典库对非本文档来自技高网...
【技术保护点】
1.一种非结构化文本的事件抽取方法,其特征在于,包括:/n基于预先构建好的事件意图字典库对非结构化文本中的事件进行抽取,识别所述事件的事件类型,并基于预先构建好的事件角色字典库,对所述事件中的角色要素进行识别;/n根据所述事件类型和所述角色要素,对所述事件进行结构化存储。/n
【技术特征摘要】
1.一种非结构化文本的事件抽取方法,其特征在于,包括:
基于预先构建好的事件意图字典库对非结构化文本中的事件进行抽取,识别所述事件的事件类型,并基于预先构建好的事件角色字典库,对所述事件中的角色要素进行识别;
根据所述事件类型和所述角色要素,对所述事件进行结构化存储。
2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
构建所述事件意图字典库和所述事件角色字典库,具体包括:
根据业务需要定义从非结构化文本中抽取的事件类型以及与各个事件类型对应的角色元素;
根据定义的所述事件类型,从非结构化文本整理出对应的事件类型规则,根据所述事件类型和所述事件类型规则构建所述事件意图字典库;
根据定义的与各个事件类型对应的角色元素,整理业务领域内的事件角色实例,根据所述角色元素和所述事件角色实例构建所述事件角色字典库,其中,所述事件角色字典库与相应的事件类型相对应,具体包括:人物字典、人物职务字典、和/或地点字典。
3.根据权利要求2所述的方法,其特征在于,构建所述事件意图字典库和所述事件角色字典库进一步包括:
在所述事件意图字典库和所述事件角色字典库运行一段时间且积累了足够的语料之后,利用得到的结构化数据进行语料标注,并利用深度学习的方法对新的事件类型规则和事件角色实例进行深度挖掘,更新所述事件意图字典库和所述事件角色字典库。
4.根据权利要求2或3所述的方法,其特征在于,基于预先构建好的事件意图字典库对非结构化文本中的事件进行抽取,识别所述事件的事件类型,并基于预先构建好的事件角色字典库,对所述事件中的角色要素进行识别具体包括:
对非结构化文本进行预处理;
对预处理后的所述非结构化文本进行分句;
基于预先构建好的事件意图字典库进行逐句识别,根据所述事件类型规则判断每个句子中蕴含的事件类型;
基于与所述事件类型对应的事件角色字典库,识别出事件中的事件角色实例。
5.一种非结构化文本的事件抽取系统,其特征在于,包括:
解析层,用于基于预先构建好的事件意图字典库对非结构化文本中的事件进行抽取,识别所述事件的事件类...
【专利技术属性】
技术研发人员:刘锋,张学龙,王哓鸣,刘弦弦,
申请(专利权)人:北京智通云联科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。