一种中文事件联合推理方法技术

技术编号：13925110 阅读：217 留言：0更新日期：2016-10-28 05:26

本发明专利技术提出篇章级别的中文事件联合推理方法和系统，该方法和系统能利用论元抽取中有价值的信息来反过来帮助触发词抽取，减少传统管道模型中的级联错误。在实现方法上，本发明专利技术采用机器学习和推理相结合的方法，利用各种语言知识来识别中文事件时序关系。本发明专利技术的方法和系统，与现有方法和系统相比，识别性能得到了一定提升。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理领域，特别是涉及事件抽取的系统和方法。
技术介绍
作为信息表示的一种主要形式，事件(Event)是一种特定人、物、事在特定时间和特定地点相互作用的客观事实(也称“自然事件”)，如人的受伤、死亡事件和食品的添加剂事件等。事件抽取的目标是抽取文本中的事件实例并识别其类型，再为每个抽取的事件实例抽取论元并赋予相应的角色，如何人、何地借助何物做了何事，这是从文本中获取有价值信息的基础研究工作。事件抽取作为信息抽取的重要研究课题，具有深远的理论意义和广泛的应用价值。在理论方面，事件抽取涉及到自然语言处理、数据挖掘、机器学习和数据库等多个学科的技术和方法，因此本文的研究不仅对解决事件抽取任务有帮助，而且对于相关学科理论完善和发展也将产生积极的促进作用。在应用方面，事件抽取已被广泛应用于问答系统、自动文摘和信息检索等领域。国外对事件抽取的研究起步较早且取得了较多成果。如Grishman使用基于规则的方法进行事件信息抽取，这些方法根据某一特定领域内事件描述的规则，通过领域专家构建大规模的知识库，利用这些规则来提取事件信息。国外的学者也开展了基于模式匹配的信息抽取研究，并研发了一些系统，例如PALKA、AutoSlog-TS、ExDisco和TIMES等。基于模式匹配的方法是在一些模式的指导下进行，首先获取模式，再利用获取的模式来抽取事件信息。可以看出，模式获取是信息抽取领域的核心步骤。Chun等在医药文献的事件抽取中，采用自举(Bootstrapping)方法获取事件模式，首先定义一些简单的模式，通过这些模式抽取出的事件信息，然后再泛化模式，利...

【技术保护点】
一种中文事件联合推理方法，用于识别从原始文本中抽取事件实例，其特征在于包括步骤：S10、对需要识别事件时序关系的原始文本中每个文档分别调用分词工具、句法分析工具、依存关系分析工具和事件抽取工具进行词语切分、实体识别、句法分析、依存关系分析和事件抽取，得到测试语料事件集合；S20、分别从预先标注了各类信息的标注语料集合和测试语料事件集合中抽取所有触发词抽取和论元抽取的特征信息，得到标注语料特征集合和测试语料特征集合；S30、根据标注语料特征集合中触发词抽取的特征，训练一个最大熵触发词识别模型和一个触发词分类模型，接着根据标注语料特征集合中论元抽取的特征，训练一个最大熵论元识别模型，再利用所述最大熵事件触发词识别模型识别测试语料特征集合中每个候选触发词，利用触发词分类模型给测试语料特征集合中每个候选触发词进行分类，利用论元识别模型识别测试预料特征集合中每个候选论元，最后得到事件联合推理第一集合；S40、对事件联合推理第一集合中的所有候选触发词，利用触发词与论元信息推理、论元数量推理和论元同指一致性推理规则进行触发词推理，得到事件联合推理集合。

【技术特征摘要】
1.一种中文事件联合推理方法，用于识别从原始文本中抽取事件实例，其特征在于包括步骤：S10、对需要识别事件时序关系的原始文本中每个文档分别调用分词工具、句法分析工具、依存关系分析工具和事件抽取工具进行词语切分、实体识别、句法分析、依存关系分析和事件抽取，得到测试语料事件集合；S20、分别从预先标注了各类信息的标注语料集合和测试语料事件集合中抽取所有触发词抽取和论元抽取的特征信息，得到标注语料特征集合和测试语料特征集合；S30、根据标注语料特征集合中触发词抽取的特征，训练一个最大熵触发词识别模型和一个触发词分类模型，接着根据标注语料特征集合中论元抽取的特征，训练一个最大熵论元识别模型，再利用所述最大熵事件触发词识别模型识别测试语料特征集合中每个候选触发词，利用触发词分类模型给测试语料特征集合中每个候选触发词进行分类，利用论元识别模型识别测试预料特征集合中每个候选论元，最后得到事件联合推理第一集合；S40、对事件联合推理第一集合中的所有候选触发词，利用触发词与论元信息推理、论元数量推理和论元同指一致性推理规则进行触发词推理，得到事件联合推理集合。2.根据权利要求1所述的中文事件联合推理方法，其特征在于，所述步骤S10还包括：S101、对需要识别触发词的原始文本中的每个文档调用分词工具切分词语，得到用空格分隔词语的第一文档集合；S102、对第一文档集合中每个文档调用句法分析工具进行句法分析，得到第二文档集合；S103、对第二文档集合中每个文档调用依存关系分析工具进行依存关系分析，得到测试语料事件集合。3.根据权利要求1所述的中文事件联合推理方法，其特征在于：所述步骤S20中所述标注语料集合是标注了实体、句法结构、依存结构和事件信息的文档集合。4.根据权利要求3所述的中文事件联合推理方法，其特征在于，所述步骤S20还包括：S201、从标注语料集合中抽取触发词识别和分类时的特征，构成标注语料触发词抽取特征集合，从测试语料集合中抽取触发词识别和分类时的特征，构成测试语料触发词抽取特征集合；S202、从标注语料集合中抽取论元识别时的特征，构成标注语料论元识别特征集合，从测试语料集合中抽取论元识别时的特征，构成测试语料论元识别特征集合。5.根据权利要求4所述的中文事件联合推理方法，其特征在于，所述步骤S201中触发词识别和分类的特征如下：<1＝候选触发词><2＝候选触发词的词性><3＝候选触发词的前一词+候选触发词><4＝候选触发词+候选触发词的后一词><5＝候选触发词的前一词词性+候选触发词词性><6＝候选触发词词性+候选触发词的后一词的词性><7＝候选触发词在句法树中的深度><8＝候选触发词在句法树中的短语结构><9＝候选触发词左边的句法上最近的实体类型和实体><10＝候选触发词右边的句法上最近的实体类型和实体><11＝候选触发词左边的物理上最近的实体类型和实体><12＝候选触发词右边的物理上最近的实体类型和实体><13＝候选触发词是否是中文Propbank中的谓词(0或1)><14＝候选触发词在中文同义词词典中的入口编号>。6.根据权利要求4所述的中文事件联合推理方法，其特征在于，所述步骤S202中论元识别的特征如下：<1＝触发词><2＝触发词词性><3＝事件类型><4＝实体中心词><5＝实体类型><6＝实体前一词和词性><7＝实体后一词和词性><8＝触发词前一词和词性><9＝触发词后一词和词性><10＝触发词和当前实体(或实体中心词)之间的依存路径><11＝实体和触发词在树中的深度差)><12＝实体到触发词的最短路径><13＝实体与触发词的相对位置(前或后)>；其中，事件类型为触发词分类后的结果。7.根据权利要求1所述的中文事件联合推理方法，其特征在于，所述步骤S30还包括：S301、把标注语料特征集合中的特征作为...

【专利技术属性】
技术研发人员：朱少华，李培峰，朱巧明，周国栋，朱晓旭，
申请(专利权)人：苏州大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人