本发明专利技术公开一种论元抽取方法和系统,所述方法基于标注信息对训练语料中标注事件实例进行处理,得到训练语料论元模式集合;基于测试语料中事件实例的角色集合对事件实例进行处理,得到测试语料候选论元模式集合;根据论元、触发词语义相似性及依存路径相似性,计算每一候选论元模式和训练语料论元模式集合中各论元模式的模式语义相似度,并基于此获取包含候选论元匹配事件实例中可匹配角色的匹配度信息的论元模式相似度集合;基于论元模式相似度集合,选取与事件实例中的角色匹配度最高且匹配度大于预设阈值的候选论元作为角色的论元。可见本发明专利技术基于语义特征对中文事件的论元进行提取,提高了中文事件论元提取的准确率和性能。
【技术实现步骤摘要】
【专利摘要】本专利技术公开一种论元抽取方法和系统,所述方法基于标注信息对训练语料中标注事件实例进行处理,得到训练语料论元模式集合;基于测试语料中事件实例的角色集合对事件实例进行处理,得到测试语料候选论元模式集合;根据论元、触发词语义相似性及依存路径相似性,计算每一候选论元模式和训练语料论元模式集合中各论元模式的模式语义相似度,并基于此获取包含候选论元匹配事件实例中可匹配角色的匹配度信息的论元模式相似度集合;基于论元模式相似度集合,选取与事件实例中的角色匹配度最高且匹配度大于预设阈值的候选论元作为角色的论元。可见本专利技术基于语义特征对中文事件的论元进行提取,提高了中文事件论元提取的准确率和性能。【专利说明】一种论元抽取方法和系统
本专利技术属于文本信息抽取领域,尤其涉及一种论元抽取方法和系统。
技术介绍
事件的论元抽取是理解自然语言的重要基础,可以为人们快速获取知识提供便利的途径,是计算机理解自然语言的必要条件,对自动文摘、机器翻译、问答系统等具有积极的促进作用。目前,主流的事件论元抽取方法为机器学习法,该方法利用句法特征来识别事件的论元及其角色。但中文是一种话题驱动的语言,是一种意合语言,以能够表达清楚语义为准,区别于英文句子较为严谨的句法结构,中文句子结构较为松散,句子成分搭配也较为灵活,且为了表述的连贯性和简洁性,部分句法成分缺省是一种常态,从而很多中文句子存在句法特征不够明显的特点。因而上述基于句法特征的事件论元抽取方法在抽取中文事件的论元时,准确率较低、性能较低。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种论元抽取方法和系统,实现基于语义特征对中文事件的论元进行提取,从而提高中文事件论元提取的准确率和性能。为此,本专利技术公开如下技术方案:一种论元抽取方法,包括:从训练语料中抽取包含标注信息的标注事件实例,基于所述标注信息对所述标注事件实例进行分析、处理,得到训练语料论元模式集合,其中,所述训练语料论元模式集合包括至少一个训练语料论元模式,所述训练语料论元模式包括由所述标注事件实例的论元、所述标注事件实例的触发词、所述论元到所述触发词的依存路径组合成的三元组;从测试语料中抽取事件实例,获取所述事件实例的角色集合,基于所述角色集合对所述事件实例进行分析、处理,得到测试语料候选论元模式集合,其中,所述测试语料候选论元模式集合包括至少一个候选论元模式,所述候选论元模式包括由所述事件实例的候选论元、所述事件实例的触发词、所述候选论元到所述触发词的依存路径组合成的三元组;根据论元语义相似性、触发词语义相似性以及依存路径相似性,计算所述测试语料候选论元模式中的每一候选论元模式和所述训练语料论元模式集合中的各论元模式的模式语义相似度,得到每一候选论元模式的模式语义相似度集合;基于各个候选论元模式的模式语义相似度集合,获取论元模式相似度集合,所述论元模式相似度集合包括论元模式相似度元素,所述论元模式相似度元素包括候选论元模式中的候选论元匹配所述事件实例中可匹配角色的匹配度信息;基于所述论元模式相似度集合,选取与所述事件实例中的角色匹配度最高且匹配度大于预设阈值的候选论元作为所述角色的论元。优选的,所述基于所述角色集合对所述事件实例进行分析、处理,得到测试语料候选论元模式集合具体包括:对所述事件实例进行实体识别和依存关系分析,得到测试语料实体集合和测试语料依存关系集合;依据所述角色集合对所述测试语料实体集合中的实体进行分析、处理,得到测试语料候选论元集合;根据所述测试语料依存关系集合,获取所述测试语料候选论元集合中的每一候选论元到其对应的触发词实例的依存路径;将所述候选论元、所述候选论元对应的触发词实例和依存路径进行组合,得到测试语料候选论元模式,各测试语料候选论元模式构成测试语料候选论元模式集合;依据预设的筛选规则从所述测试语料候选论元模式中删除不符合所述预设的筛选规则的候选论元模式,得到测试语料筛选论元模式,将所述测试语料筛选论元模式替换所述测试语料候选论元模式作为新的测试语料候选论元模式。优选的,所述根据论元语义相似性、触发词语义相似性以及依存路径相似性,计算所述测试语料候选论元模式中的每一候选论元模式和所述训练语料论元模式集合中的所有论元模式的模式语义相似度,得到每一候选论元模式的模式语义相似度集合具体包括:基于优化的夹角余弦法,利用公式(I)计算所述候选论元模式Pn^P所述训练语料论元模式集合TP中的每个论元模式tPj的依存路径相似度SimD (pm, tp」):【权利要求】1.一种论元抽取方法,其特征在于,包括: 从训练语料中抽取包含标注信息的标注事件实例,基于所述标注信息对所述标注事件实例进行分析、处理,得到训练语料论元模式集合,其中,所述训练语料论元模式集合包括至少一个训练语料论元模式,所述训练语料论元模式包括由所述标注事件实例的论元、所述标注事件实例的触发词、所述论元到所述触发词的依存路径组合成的三元组; 从测试语料中抽取事件实例,获取所述事件实例的角色集合,基于所述角色集合对所述事件实例进行分析、处理,得到测试语料候选论元模式集合,其中,所述测试语料候选论元模式集合包括至少一个候选论元模式,所述候选论元模式包括由所述事件实例的候选论元、所述事件实例的触发词、所述候选论元到所述触发词的依存路径组合成的三元组; 根据论元语义相似性、触发词语义相似性以及依存路径相似性,计算所述测试语料候选论元模式中的每一候选论元模式和所述训练语料论元模式集合中的各论元模式的模式语义相似度,得到每一候选论元模式的模式语义相似度集合; 基于各个候选论元模式的模式语义相似度集合,获取论元模式相似度集合,所述论元模式相似度集合包括论 元模式相似度元素,所述论元模式相似度元素包括候选论元模式中的候选论元匹配所述事件实例中可匹配角色的匹配度信息; 基于所述论元模式相似度集合,选取与所述事件实例中的角色匹配度最高且匹配度大于预设阈值的候选论元作为所述角色的论元。2.根据权利要求1所述的论元抽取方法,其特征在于,所述基于所述角色集合对所述事件实例进行分析、处理,得到测试语料候选论元模式集合具体包括: 对所述事件实例进行实体识别和依存关系分析,得到测试语料实体集合和测试语料依存关系集合; 依据所述角色集合对所述测试语料实体集合中的实体进行分析、处理,得到测试语料候选论元集合; 根据所述测试语料依存关系集合,获取所述测试语料候选论元集合中的每一候选论元到其对应的触发词实例的依存路径; 将所述候选论元、所述候选论元对应的触发词实例和依存路径进行组合,得到测试语料候选论元模式,各测试语料候选论元模式构成测试语料候选论元模式集合; 依据预设的筛选规则从所述测试语料候选论元模式中删除不符合所述预设的筛选规则的候选论元模式,得到测试语料筛选论元模式,将所述测试语料筛选论元模式替换所述测试语料候选论元模式作为新的测试语料候选论元模式。3.根据权利要求2所述的论元抽取方法,其特征在于,所述根据论元语义相似性、触发词语义相似性以及依存路径相似性,计算所述测试语料候选论元模式中的每一候选论元模式和所述训练语料论元模式集合中的所有论元模式的模式语义相似度,得到每一候选论元模式的模式语义相似度集合具体包括: 基于优化的本文档来自技高网...
【技术保护点】
一种论元抽取方法,其特征在于,包括:从训练语料中抽取包含标注信息的标注事件实例,基于所述标注信息对所述标注事件实例进行分析、处理,得到训练语料论元模式集合,其中,所述训练语料论元模式集合包括至少一个训练语料论元模式,所述训练语料论元模式包括由所述标注事件实例的论元、所述标注事件实例的触发词、所述论元到所述触发词的依存路径组合成的三元组;从测试语料中抽取事件实例,获取所述事件实例的角色集合,基于所述角色集合对所述事件实例进行分析、处理,得到测试语料候选论元模式集合,其中,所述测试语料候选论元模式集合包括至少一个候选论元模式,所述候选论元模式包括由所述事件实例的候选论元、所述事件实例的触发词、所述候选论元到所述触发词的依存路径组合成的三元组;根据论元语义相似性、触发词语义相似性以及依存路径相似性,计算所述测试语料候选论元模式中的每一候选论元模式和所述训练语料论元模式集合中的各论元模式的模式语义相似度,得到每一候选论元模式的模式语义相似度集合;基于各个候选论元模式的模式语义相似度集合,获取论元模式相似度集合,所述论元模式相似度集合包括论元模式相似度元素,所述论元模式相似度元素包括候选论元模式中的候选论元匹配所述事件实例中可匹配角色的匹配度信息;基于所述论元模式相似度集合,选取与所述事件实例中的角色匹配度最高且匹配度大于预设阈值的候选论元作为所述角色的论元。...
【技术特征摘要】
【专利技术属性】
技术研发人员:李培峰,朱巧明,周国栋,张玉华,孔芳,
申请(专利权)人:苏州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。