一种融合句义信息的事件关系强度图构建方法技术

技术编号：13290883 阅读：135 留言：0更新日期：2016-07-09 09:22

本发明专利技术涉及一种融合句义信息的事件关系强度图构建方法。首先基于汉语句义结构理论，提取句子语义信息，扩充事件的特征维度，并利用改进的TF‑IDF方法完成事件向量表达，再结合上下文信息和核心事件信息优化事件向量，最后利用LDA方法获取事件之间关系强度，设定合适的关系强度阈值，构建事件关系强度图。本发明专利技术通过融合句义信息，提供了一种将孤立分散的事件以一种可度量形式关联起来的方法，并通过事件关系强度图直观展示事件间的关系，准确的定位核心事件，有力支撑后续基于事件关系的自动文摘、舆情预测等自然语言处理应用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种融合句义信息的事件关系强度图构建方法，属于计算机科学及自然语言处理的信息抽取领域。
技术介绍
事件是指在某个特定时间和地点发生的，由一个或多个角色参与的，由一个或多个动作组成的一件事情。随着移动互联网技术的迅速发展，事件发生后，尤其是突发事件，会快速涌现出大量与之相关的新闻报道、微博评论以及博客等文本。由于事件固有的时间、地点、人物、起因、经过、结果等属性，其发生往往不是孤立的，而是会与其它事件存在不同程度的相互关系，通常用关系强度来度量。为了从大量的文本中，快速准确地定位相互关联的事件，需要基于事件间的关系强度构建事件关系强度图，从而为自动文摘、舆情预测等自然语言应用提供有效支撑。目前，针对事件关系识别的研究主要有模式匹配法、元素和位置分析法以及规则推理法。模式匹配法是事件关系检测的主要方法之一，主要是借助事件特征项指导模式的建立。触发词是事件的核心，直接表明事件的发生，是决定事件类别的最主要特征。根据事件触发词之间的关系，人工定义模板，抽取文本中符合模板的事件关系。事件关系检测的模式匹配方法，往往通过对事件触发词间的关系进行研究，借助触发词间的关系，制定相应的模式，辅助事件间关系的识别。元素和位置分析法，事件元素是事件的重要组成部分，事件元素给出了事件的参与者，时间、地点等信息。每个事件包含特定的事件元素信息，且相关事件之间往往共享某一个或者某几个事件元素。事件位置能...

【技术保护点】
一种融合句义信息的事件关系强度图构建方法，所述方法包括如下步骤：步骤1：基于汉语句义结构理论，提取句子语义信息，扩充事件的特征维度；所述句义信息是指汉语句义结构模型中提取的句义成分，包括谓词，话题、述题、基本项和一般项；其中，话题是句义的被描述对象，述题是句义对话题的描述内容，基本项是句子的核心语义信息，一般项是句义中的修饰成分；步骤1.1，依据句义结构模型的语义将事件集合对应的文本进行分词、词性标注等处理，获取事件集合以及其对应的词语序列；根据词性去除词语序列中噪声词语，包括形容词和副词，得到特征词；步骤1.2，基于汉语句义结构理论，提取事件所在文本的谓词、话题、述题、基本项和一般项作为句义特征，结合事件自身的触发词和事件元素，得到事件特征空间；步骤2：在步骤1得到事件特征空间的基础上，利用改进的TF‑IDF方法完成事件向量表达；所述改进的TF‑IDF方法，依据词语语义信息，其TF值计算方法为词语在所有文本中出现的次数总和与所有文本中总的词语个数的比值，其IDF值计算方法为文本总数与词语出现的文本总数的比值；步骤3：在步骤2得到事件向量表达的基础上，结合核心事件信息和上下文信息来优化...

【技术特征摘要】
1.一种融合句义信息的事件关系强度图构建方法，所述方法包括如下步骤：
步骤1：基于汉语句义结构理论，提取句子语义信息，扩充事件的特征维度；所述句义信息是指汉语句义结构模型中提取的句义成分，包括谓词，话题、述题、基本项和一般项；其中，话题是句义的被描述对象，述题是句义对话题的描述内容，基本项是句子的核心语义信息，一般项是句义中的修饰成分；
步骤1.1，依据句义结构模型的语义将事件集合对应的文本进行分词、词性标注等处理，获取事件集合以及其对应的词语序列；根据词性去除词语序列中噪声词语，包括形容词和副词，得到特征词；
步骤1.2，基于汉语句义结构理论，提取事件所在文本的谓词、话题、述题、基本项和一般项作为句义特征，结合事件自身的触发词和事件元素，得到事件特征空间；
步骤2：在步骤1得到事件特征空间的基础上，利用改进的TF-IDF方法完成事件向量表达；所述改进的TF-IDF方法，依据词语语义信息，其TF值计算方法为词语在所有文本中出现的次数总和与所有文本中总的词语个数的比值，其IDF值计算方法为文本总数与词语出现的文本总数的比值；
步骤3：在步骤2得到事件向量表达的基础上，结合核心事件信息和上下文信息来优化事件向量；
步骤3.1，利用核心事件信息优化核心事件向量，所述核心事件向量是指通过引入触发词所在文本的标题信息Istit、位置信息Loc、出现频率信息Freq、标记词语信息Mark、词语词性信息Pos、话题Topic，述题Comment，一般项CommentArg和基本项BasicArg对触发词进行打分，选取得分值最高的触发词作为核心触发词，其对应的事件向量即为核心事件向量；所述核心事件向量优化是指用打分权值替代原触发词权值，完成核心事件向量的优化；
步骤3.2，利用上下文信息优化事件向量，所述利用上下文信息优化事件向量是指若两个事件出现同一句，取后面事件触发词的权值去填充位于前面的事件向量对应的位置，完成事件向量优化；
步骤4...

【专利技术属性】
技术研发人员：罗森林，吴舟婷，潘丽敏，陈倩柔，邹丽丽，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人