本发明专利技术涉及一种融合句义信息的事件关系强度图构建方法。首先基于汉语句义结构理论,提取句子语义信息,扩充事件的特征维度,并利用改进的TF‑IDF方法完成事件向量表达,再结合上下文信息和核心事件信息优化事件向量,最后利用LDA方法获取事件之间关系强度,设定合适的关系强度阈值,构建事件关系强度图。本发明专利技术通过融合句义信息,提供了一种将孤立分散的事件以一种可度量形式关联起来的方法,并通过事件关系强度图直观展示事件间的关系,准确的定位核心事件,有力支撑后续基于事件关系的自动文摘、舆情预测等自然语言处理应用。
【技术实现步骤摘要】
本专利技术涉及一种融合句义信息的事件关系强度图构建方法,属于计算机科学及自然语言处理的信息抽取领域。
技术介绍
事件是指在某个特定时间和地点发生的,由一个或多个角色参与的,由一个或多个动作组成的一件事情。随着移动互联网技术的迅速发展,事件发生后,尤其是突发事件,会快速涌现出大量与之相关的新闻报道、微博评论以及博客等文本。由于事件固有的时间、地点、人物、起因、经过、结果等属性,其发生往往不是孤立的,而是会与其它事件存在不同程度的相互关系,通常用关系强度来度量。为了从大量的文本中,快速准确地定位相互关联的事件,需要基于事件间的关系强度构建事件关系强度图,从而为自动文摘、舆情预测等自然语言应用提供有效支撑。目前,针对事件关系识别的研究主要有模式匹配法、元素和位置分析法以及规则推理法。模式匹配法是事件关系检测的主要方法之一,主要是借助事件特征项指导模式的建立。触发词是事件的核心,直接表明事件的发生,是决定事件类别的最主要特征。根据事件触发词之间的关系,人工定义模板,抽取文本中符合模板的事件关系。事件关系检测的模式匹配方法,往往通过对事件触发词间的关系进行研究,借助触发词间的关系,制定相应的模式,辅助事件间关系的识别。元素和位置分析法,事件元素是事件的重要组成部分,事件元素给出了事件的参与者,时间、地点等信息。每个事件包含特定的事件元素信息,且相关事件之间往往共享某一个或者某几个事件元素。事件位置能表明事件发生的上下文环境,相关的事件在文本也以较大的概率先后出现。因此位置和事件元素在事件关系的识别中扮演着重要的角色。基于位置和元素的事件关系检测方法,即是将事件位置和元素信息作为重要线索识别事件之间关系的方法。规则推理法主要是基于Allen的“区间代数”算法构建推理规则,如“if-then”这类规则,实现事件关系自动推理;或是对规则进行扩展,训练有效的分类器,对事件关系进行分类。如Mani和Tatu的事件时序关系识别系统。现有方法可总结为如下两个方面:①不给出具体的关系类型,围绕事件关系检测任务对事件之间逻辑关系进行有无的判断。但是,这类方法仅对事件浅层逻辑关系进行识别,不能深入到事件内部的语义联系,如关系类型或联系紧密度,离实际应用还有一定的差距。②从分类关系中的某一特定类型关系出发,主要以因果关系和时序关系为主。但是,这类方法存在如下问题:首先,仅对某一特定类型的事件关系进行研究,不具有普适性和全面性。其次,在事件关系定义方面,这些方法仅对事件关系进行了初步的定义和类别划分,但尚未形成事件关系的统一定义。同时,也没有比较完整的事件关系标注语料做支撑,这使得该类方法在全面识别事件关系中面临较大的困难。因此,现有的基于类型识别的事件关系强度计算方法效果并不理想,构建的事件强度关系图难以应用推广。
技术实现思路
本专利技术为解决关系类型识别效果差、事件关系强度图准确性不高的问题,提出一种融合句义信息的事件关系强度图构建方法。利用汉语语义学的句义结构理论挖掘事件之间的内在语义关系,扩充事件特征维度,建立事件向量模型,直接利用向量计算衡量事件间关联关系的强弱,进而构建事件关系强度图,实现事件关联关系的可视化。本专利技术的设计原理为:1.基于汉语句义结构理论,提取句子语义信息,扩充事件的特征维度;2.利用改进的TF-IDF方法完成事件向量表达;3.结合上下文信息和核心事件信息完成事件向量的优化;4.利用LDA方法获取事件之间关系强度;5.设定合适的关系强度阈值,得到事件对集合,构建事件关系强度图。所述基于汉语句义结构理论,提取句义语义信息,扩充事件的特征维度是指通过分析事件所在文本,利用汉语句义结构模型提取句子的话题、述题、一般项和基本项。其中,话题和述题是对句义的划分,利用话题成分可以获取句义的被描述对象,述题成分可以获取句义对话题的描述内容。其中,一般项和基本项是对词语的标注,利用一般项获取句义中的修饰成分,利用基本项可以获取句子的核心语义。利用话题、述题、一般项和基本项扩充事件特征空间可以获取更多语义信息。所述改进的词频-逆文档频率tf-idf方法其特征在于用该词语在所有文本中出现的次数总和与所有文本中总的词语个数的比值作为该词语的TF值时,解决事件等短文本向量表达中存在的稀疏问题。所述利用核心事件信息完成事件向量的优化其特征在于通过引入触发词的标题信息Istit、位置信息Loc、出现频率信息Freq、标记词语信息Mark、词语词性信息Pos、话题Topic,述题Comment,一般项CommentArg和基本项BasicArg对事件触发词进行打分。选取得分值最高的触发词作为核心触发词,并用打分权值替代原触发词权值,完成核心事件向量的优化。所述设定合适的关系强度阈值其特征在于保留关系强度值大于阈值0.2的事件对,并用有效的线段进行连接,从而得到事件关系图。本专利技术的技术方案是通过如下步骤实现的:步骤1:基于汉语句义结构理论,提取句子语义信息,扩充事件的特征维度;所述句义信息是指汉语句义结构模型中提取的句义成分,包括谓词,话题、述题、基本项和一般项;其中,话题是句义的被描述对象,述题是句义对话题的描述内容,基本项是句子的核心语义信息,一般项是句义中的修饰成分;步骤1.1,依据句义结构模型的语义将事件集合对应的文本进行分词、词性标注等处理,获取事件集合以及其对应的词语序列;根据词性去除词语序列中噪声词语,包括形容词和副词,得到特征词;步骤1.2,基于汉语句义结构理论,提取事件所在文本的谓词、话题、述题、基本项和一般项作为句义特征,结合事件自身的触发词和事件元素,得到事件特征空间;步骤2:在步骤1得到事件特征空间的基础上,利用改进的TF-IDF方法完成事件向量表达;所述改进的TF-IDF方法,依据词语语义信息,其TF值计算方法为词语在所有文本中出现的次数总和与所有文本中总的词语个数的比值,其IDF值计算方法为文本总数与词语出现的文本总数的比值;其中,词语TF值计算公式为:Ntf(wi)=No/NV(1)Ntf(wi)表示词语wi的TF值,No表示该词语在所有文本中出现的次数总和,NV表示所有文本中总的词语个数。词语IDF值的计算公式为:Nidf(wi)=Nm/Nm,o(2)Nidf(wi)表示词语wi的IDF值,Nm表示文本的总数,若wi作为句义结构模型的基本项出现,则Nm,o表示词语wi作为基本项出现的文本个数本文档来自技高网...
【技术保护点】
一种融合句义信息的事件关系强度图构建方法,所述方法包括如下步骤:步骤1:基于汉语句义结构理论,提取句子语义信息,扩充事件的特征维度;所述句义信息是指汉语句义结构模型中提取的句义成分,包括谓词,话题、述题、基本项和一般项;其中,话题是句义的被描述对象,述题是句义对话题的描述内容,基本项是句子的核心语义信息,一般项是句义中的修饰成分;步骤1.1,依据句义结构模型的语义将事件集合对应的文本进行分词、词性标注等处理,获取事件集合以及其对应的词语序列;根据词性去除词语序列中噪声词语,包括形容词和副词,得到特征词;步骤1.2,基于汉语句义结构理论,提取事件所在文本的谓词、话题、述题、基本项和一般项作为句义特征,结合事件自身的触发词和事件元素,得到事件特征空间;步骤2:在步骤1得到事件特征空间的基础上,利用改进的TF‑IDF方法完成事件向量表达;所述改进的TF‑IDF方法,依据词语语义信息,其TF值计算方法为词语在所有文本中出现的次数总和与所有文本中总的词语个数的比值,其IDF值计算方法为文本总数与词语出现的文本总数的比值;步骤3:在步骤2得到事件向量表达的基础上,结合核心事件信息和上下文信息来优化事件向量;步骤3.1,利用核心事件信息优化核心事件向量,所述核心事件向量是指通过引入触发词所在文本的标题信息Istit、位置信息Loc、出现频率信息Freq、标记词语信息Mark、词语词性信息Pos、话题Topic,述题Comment,一般项Comment Arg和基本项Basic Arg对触发词进行打分,选取得分值最高的触发词作为核心触发词,其对应的事件向量即为核心事件向量;所述核心事件向量优化是指用打分权值替代原触发词权值,完成核心事件向量的优化;步骤3.2,利用上下文信息优化事件向量,所述利用上下文信息优化事件向量是指若两个事件出现同一句,取后面事件触发词的权值去填充位于前面的事件向量对应的位置,完成事件向量优化;步骤4:在步骤3完成事件向量优化的基础上,利用LDA方法获取事件之间关系强度;步骤4.1,获取词语的主题表示结果,其具体方法为:采用LDA模型对得到的事件‑词语矩阵进行分析,得到词语的主题表示结果,此时主题个数k取N/2,N为文本中事件个数;步骤4.2,计算事件之间的关系强度,其具体方法为:将事件看成是由主题构成的向量,计算两两事件之间的余弦夹角值,作为事件对的关系强度;步骤5:在步骤4得到两两事件关系的基础上,选取合适的关系强度阈值,构建事件关系强度图,所述合适的关系强度阈值设定为0.2。...
【技术特征摘要】
1.一种融合句义信息的事件关系强度图构建方法,所述方法包括如下步骤:
步骤1:基于汉语句义结构理论,提取句子语义信息,扩充事件的特征维度;所述句义信息是指汉语句义结构模型中提取的句义成分,包括谓词,话题、述题、基本项和一般项;其中,话题是句义的被描述对象,述题是句义对话题的描述内容,基本项是句子的核心语义信息,一般项是句义中的修饰成分;
步骤1.1,依据句义结构模型的语义将事件集合对应的文本进行分词、词性标注等处理,获取事件集合以及其对应的词语序列;根据词性去除词语序列中噪声词语,包括形容词和副词,得到特征词;
步骤1.2,基于汉语句义结构理论,提取事件所在文本的谓词、话题、述题、基本项和一般项作为句义特征,结合事件自身的触发词和事件元素,得到事件特征空间;
步骤2:在步骤1得到事件特征空间的基础上,利用改进的TF-IDF方法完成事件向量表达;所述改进的TF-IDF方法,依据词语语义信息,其TF值计算方法为词语在所有文本中出现的次数总和与所有文本中总的词语个数的比值,其IDF值计算方法为文本总数与词语出现的文本总数的比值;
步骤3:在步骤2得到事件向量表达的基础上,结合核心事件信息和上下文信息来优化事件向量;
步骤3.1,利用核心事件信息优化核心事件向量,所述核心事件向量是指通过引入触发词所在文本的标题信息Istit、位置信息Loc、出现频率信息Freq、标记词语信息Mark、词语词性信息Pos、话题Topic,述题Comment,一般项CommentArg和基本项BasicArg对触发词进行打分,选取得分值最高的触发词作为核心触发词,其对应的事件向量即为核心事件向量;所述核心事件向量优化是指用打分权值替代原触发词权值,完成核心事件向量的优化;
步骤3.2,利用上下文信息优化事件向量,所述利用上下文信息优化事件向量是指若两个事件出现同一句,取后面事件触发词的权值去填充位于前面的事件向量对应的位置,完成事件向量优化;
步骤4...
【专利技术属性】
技术研发人员:罗森林,吴舟婷,潘丽敏,陈倩柔,邹丽丽,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。