当前位置: 首页 > 专利查询>苏州大学专利>正文

一种中文事件联合推理方法技术

技术编号:13925110 阅读:201 留言:0更新日期:2016-10-28 05:26
本发明专利技术提出篇章级别的中文事件联合推理方法和系统,该方法和系统能利用论元抽取中有价值的信息来反过来帮助触发词抽取,减少传统管道模型中的级联错误。在实现方法上,本发明专利技术采用机器学习和推理相结合的方法,利用各种语言知识来识别中文事件时序关系。本发明专利技术的方法和系统,与现有方法和系统相比,识别性能得到了一定提升。

【技术实现步骤摘要】

本专利技术属于自然语言处理领域,特别是涉及事件抽取的系统和方法。
技术介绍
作为信息表示的一种主要形式,事件(Event)是一种特定人、物、事在特定时间和特定地点相互作用的客观事实(也称“自然事件”),如人的受伤、死亡事件和食品的添加剂事件等。事件抽取的目标是抽取文本中的事件实例并识别其类型,再为每个抽取的事件实例抽取论元并赋予相应的角色,如何人、何地借助何物做了何事,这是从文本中获取有价值信息的基础研究工作。事件抽取作为信息抽取的重要研究课题,具有深远的理论意义和广泛的应用价值。在理论方面,事件抽取涉及到自然语言处理、数据挖掘、机器学习和数据库等多个学科的技术和方法,因此本文的研究不仅对解决事件抽取任务有帮助,而且对于相关学科理论完善和发展也将产生积极的促进作用。在应用方面,事件抽取已被广泛应用于问答系统、自动文摘和信息检索等领域。国外对事件抽取的研究起步较早且取得了较多成果。如Grishman使用基于规则的方法进行事件信息抽取,这些方法根据某一特定领域内事件描述的规则,通过领域专家构建大规模的知识库,利用这些规则来提取事件信息。国外的学者也开展了基于模式匹配的信息抽取研究,并研发了一些系统,例如PALKA、AutoSlog-TS、ExDisco和TIMES等。基于模式匹配的方法是在一些模式的指导下进行,首先获取模式,再利用获取的模式来抽取事件信息。可以看出,模式获取是信息抽取领域的核心步骤。Chun等在医药文献的事件抽取中,采用自举(Bootstrapping)方法获取事件模式,首先定义一些简单的模式,通过这些模式抽取出的事件信息,然后再泛化模式,利用泛化后的模式再抽取事件,直到满足终止条件。基于机器学习的方法是目前主流的事件抽取策略,该方法将事件抽取分为几个子任务,并且将这些子任务作为分类问题来处理。基于机器学习方法的关键是分类器构建和特征发现和选择。英文事件抽取一般分为两个不同类别:基于句子的事件抽取和基于文档的事件抽取。早期的研究聚焦于句子级别的事件抽取。例如,Chieu首次在事件抽取中引入最大熵分类器,用于事件论元角色的识别。Ahn结合MegaM和Timbl两种机器学习方法分别实现了事件抽取任务中事件触发词及其类别识别和事件元素识别这两个主要步骤,完成了一个简单的事件抽取系统。Grishman在ACE2005评测的基础上,提出了一个考虑多种特征进行事件抽取的方法。Hardy等利用各种表象的特征进行事件抽取。Chen和Ji采用自举方法分别在英文和中文语料上进行事件抽取的联合训练,尝试从跨语言事件抽取中利用联合训练来提高中文和英文事件抽取性能。近年来,在ACE英文语料上出现了较多使用更高级别的信息进行事件抽取的研究。例如,Ji和Grishman受“一个段落,一种主题”思想的启发,将主题相似的文档聚集成类,并采用规则方法实现句子和文档级别的事件和论元的一致性。Patwardhan和Riloff提出一个事件抽取模型,该模型由句子和文档级别事件识别模块和角色填充模块两部分组成,并采用一个概率模型将这两个模块统一并联合作出最后的决策。Liao和Grishman提出了单文档跨事件推理方法,认为同一文档中事件类型分别具有一致性。Ji基于平行语料库和跨语言信息,提出了一个归纳学习框架。Hong等则根据实体类别的一致性来预测事件并采用推理方法来提高事件抽取中论元识别的性能。Lu等提出了一个基于半监督马尔科夫随机场的结构优先模型,并用于事件抽取。Huang等针对单一特征信息存在的局限性,提出了结构化特征的表示方法,从词汇、篇章和角色分布三个不同角度探索特征的组合和表示方法,从而体现不同论元、不同事件和不同角色之间的关联性。基于框架语义句法分析和事件抽取在结构上是相同的任务这个猜想,Judea和Strube重新训练SEMAFOR(一个最先进的框架语义句法分析系统)来预测触发词和论元,取得了不错的效果。最近几年,深度学习模型应用在自然语言处理取得了不错的效果。例如,Chen等引入字表示模型来获取词汇语义线索,提出动态多池卷积神经网络(DMCNN)获取句子级别线索,从纯文本中抽取词汇和句子级别特征。Nguyen和Grishman使用卷积神经网络克服了传统的特征工程方法的两个局限:在大量特征上的特征工程和错误传播。中文事件抽取研究起步较晚,但也取得了一些成果。周剑辉采用机器学习的方法获取规则集,并对金融领域的收购、分红和贷款三类金融事件进行了事件抽取。姜吉发提出了模式自动学习方法GenPAM,该方法定义了事件模式、事件触发模式以及事件抽取模式三种模式,根据这三种模式来定义事件框架,利用关键词定位事件的候选描述句来抽取事件信息。梁晗等提出了一种基于框架的信息抽取模式并建立了统一的灾难事件框架,利用框架的继承归纳性质概括事件信息,并提出了按时间顺序的线索性事件抽取的输出方式。针对ACE中文事件抽取任务,就研究方法而言,目前国际上的研究主要从特征选择和触发词扩展两个方面入手。在特征选择方面,Tan等以句子为驱动,先检测出事件句,再根据一定的特征判定其类型,将触发词的检测建立在事件类型已知的基础上,通过构建模板来反映事件论元角色和触发词之间的关系,并探讨了基于多层模板和条件随机场(Conditional Random Field,CRF)模型的事件论元角色识别方法。Chen和Ji根据中文触发词可能位于某个词内的特点,从词汇、句法、语义和相邻信息等多个角度抽取特征,用于中文事件抽取。Fu等提出了一个特征加权方法,用于对各种特征进行权重的重新分配,并用于触发词的识别和事件分类。Wang把各种特征,如项频度、句子位置和长度、标题词覆盖率、语义角色标注等组合起来选择信息化最大的句子作为事件的候选。Chen和Ng把字符信息、语义角色标注信息、触发词概率信息、零指代信息、触发词一致性信息和论元一致性信息等特征用于中文事件抽取。在触发词扩展方面,Chen和Ji采用自举方法分别在英文和中文语料上进行事件抽取的联合训练,尝试从跨语言事件抽取中利用联合训练来提高中文和英文事件抽取性能。Ji从平行语料库入手,从英文中利用中英翻译来扩展中文触发词。Qin等则用“同义词词林”来扩展中文事件触发词。Li等根据中文词组的组合语义学原理,分别从动词构词结构和形态结构两个方面入手,识别在训练语料中没出现的未知触发词,并结合篇章级别的一致性信息进行事件识别。近几年,联合学习模型在自然语言处理中已成为一个研究热点,该方法可以很好地协同多个任务。在英文事件抽取的联合学习方面,Riedel和Chun利用马尔科夫逻辑构建一个通用的联合学习框架来抽取生物医学中的事件实例。Poon和Vanderwende用马尔科夫逻辑来联合预测生物信息学中事件及其论元。Riedel和McCallum提出了面向生物医学事件抽取的3个联合模型。Li等提出了一个基于结构预测的事件抽取联合学习架构,并利用Beam Search来获得较优解。在中文事件抽取的联合学习方面,Li等提出了一种中文事件触发词识别和分类的联合学习模型,该模型不仅有效地促进了触发词识别和分类这两个模型的互动,也融入了很多有效的约束条件。Li等提出了一个事件论元识别和角色分配的联合学习模型,该模型利用各种约束来保本文档来自技高网...

【技术保护点】
一种中文事件联合推理方法,用于识别从原始文本中抽取事件实例,其特征在于包括步骤:S10、对需要识别事件时序关系的原始文本中每个文档分别调用分词工具、句法分析工具、依存关系分析工具和事件抽取工具进行词语切分、实体识别、句法分析、依存关系分析和事件抽取,得到测试语料事件集合;S20、分别从预先标注了各类信息的标注语料集合和测试语料事件集合中抽取所有触发词抽取和论元抽取的特征信息,得到标注语料特征集合和测试语料特征集合;S30、根据标注语料特征集合中触发词抽取的特征,训练一个最大熵触发词识别模型和一个触发词分类模型,接着根据标注语料特征集合中论元抽取的特征,训练一个最大熵论元识别模型,再利用所述最大熵事件触发词识别模型识别测试语料特征集合中每个候选触发词,利用触发词分类模型给测试语料特征集合中每个候选触发词进行分类,利用论元识别模型识别测试预料特征集合中每个候选论元,最后得到事件联合推理第一集合;S40、对事件联合推理第一集合中的所有候选触发词,利用触发词与论元信息推理、论元数量推理和论元同指一致性推理规则进行触发词推理,得到事件联合推理集合。

【技术特征摘要】
1.一种中文事件联合推理方法,用于识别从原始文本中抽取事件实例,其特征在于包括步骤:S10、对需要识别事件时序关系的原始文本中每个文档分别调用分词工具、句法分析工具、依存关系分析工具和事件抽取工具进行词语切分、实体识别、句法分析、依存关系分析和事件抽取,得到测试语料事件集合;S20、分别从预先标注了各类信息的标注语料集合和测试语料事件集合中抽取所有触发词抽取和论元抽取的特征信息,得到标注语料特征集合和测试语料特征集合;S30、根据标注语料特征集合中触发词抽取的特征,训练一个最大熵触发词识别模型和一个触发词分类模型,接着根据标注语料特征集合中论元抽取的特征,训练一个最大熵论元识别模型,再利用所述最大熵事件触发词识别模型识别测试语料特征集合中每个候选触发词,利用触发词分类模型给测试语料特征集合中每个候选触发词进行分类,利用论元识别模型识别测试预料特征集合中每个候选论元,最后得到事件联合推理第一集合;S40、对事件联合推理第一集合中的所有候选触发词,利用触发词与论元信息推理、论元数量推理和论元同指一致性推理规则进行触发词推理,得到事件联合推理集合。2.根据权利要求1所述的中文事件联合推理方法,其特征在于,所述步骤S10还包括:S101、对需要识别触发词的原始文本中的每个文档调用分词工具切分词语,得到用空格分隔词语的第一文档集合;S102、对第一文档集合中每个文档调用句法分析工具进行句法分析,得到第二文档集合;S103、对第二文档集合中每个文档调用依存关系分析工具进行依存关系分析,得到测试语料事件集合。3.根据权利要求1所述的中文事件联合推理方法,其特征在于:所述步骤S20中所述标注语料集合是标注了实体、句法结构、依存结构和事件信息的文档集合。4.根据权利要求3所述的中文事件联合推理方法,其特征在于,所述步骤S20还包括:S201、从标注语料集合中抽取触发词识别和分类时的特征,构成标注语料触发词抽取特征集合,从测试语料集合中抽取触发词识别和分类时的特征,构成测试语料触发词抽取特征集合;S202、从标注语料集合中抽取论元识别时的特征,构成标注语料论元识别特征集合,从测试语料集合中抽取论元识别时的特征,构成测试语料论元识别特征集合。5.根据权利要求4所述的中文事件联合推理方法,其特征在于,所述步骤S201中触发词识别和分类的特征如下:<1=候选触发词><2=候选触发词的词性><3=候选触发词的前一词+候选触发词><4=候选触发词+候选触发词的后一词><5=候选触发词的前一词词性+候选触发词词性><6=候选触发词词性+候选触发词的后一词的词性><7=候选触发词在句法树中的深度><8=候选触发词在句法树中的短语结构><9=候选触发词左边的句法上最近的实体类型和实体><10=候选触发词右边的句法上最近的实体类型和实体><11=候选触发词左边的物理上最近的实体类型和实体><12=候选触发词右边的物理上最近的实体类型和实体><13=候选触发词是否是中文Propbank中的谓词(0或1)><14=候选触发词在中文同义词词典中的入口编号>。6.根据权利要求4所述的中文事件联合推理方法,其特征在于,所述步骤S202中论元识别的特征如下:<1=触发词><2=触发词词性><3=事件类型><4=实体中心词><5=实体类型><6=实体前一词和词性><7=实体后一词和词性><8=触发词前一词和词性><9=触发词后一词和词性><10=触发词和当前实体(或实体中心词)之间的依存路径><11=实体和触发词在树中的深度差)><12=实体到触发词的最短路径><13=实体与触发词的相对位置(前或后)>;其中,事件类型为触发词分类后的结果。7.根据权利要求1所述的中文事件联合推理方法,其特征在于,所述步骤S30还包括:S301、把标注语料特征集合中的特征作为...

【专利技术属性】
技术研发人员:朱少华李培峰朱巧明周国栋朱晓旭
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1