一种用于对话系统的面向事件画像的文本分析方法技术方案

技术编号:28871607 阅读:27 留言:0更新日期:2021-06-15 23:04
本发明专利技术提供了一种用于对话系统的面向事件画像的文本分析方法,包括:1、事件关系抽取;2、事件抽取和结构化;3、事件相似度计算和融合;4、事件触发词抽取和论元抽取。本发明专利技术充分研究构建事理图谱的方法,通过采用知识图谱结构来描述事件之间的逻辑结构关系,同时为了更清晰的描述事件,对事件的多维属性进行画像。本发明专利技术提出了一种事理图谱构建的体系结构,包括文本语料采集,事件关系抽取模板构造,事件抽取和结构化,事件相似度计算和融合,事件触发词抽取和论元抽取模型构建,事件关系对构建,图数据库存储,并利用该体系结构构建了顺承事理图谱、因果事理图谱、条件事理图谱、转折事理图谱、并发事理图谱。

【技术实现步骤摘要】
一种用于对话系统的面向事件画像的文本分析方法
本专利技术涉及一种用于对话系统的面向事件画像的文本分析方法。
技术介绍
事件是人类社会的核心概念之一,人们的社会活动往往是事件驱动的。事件之间在时间、空间上相继发生的演化规律和模式是一种十分有价值的知识。然而,现有的典型知识图谱均以实体及其属性和关系为研究核心,缺乏对事理逻辑这一重要人类知识的刻画。为了弥补这一不足,事理图谱应运而生,它能够揭示事件的演化规律和发展逻辑,刻画和记录人类行为活动。事理图谱描述的是逻辑社会中的知识,节点表示事件,节点间的边表示逻辑关系,本质上,事理图谱是事理逻辑的知识库。人类对世界的记忆是由多个事件组合形成的,事件跟人类的思考和行为更加贴切,更能体现现实世界中的知识形式和内容,尤其是知识的动态表示。现有的知识图谱不能回答“为什么”,“下一步做什么”这样有关事理逻辑的问题,然而目前很多人工智能应用需要深刻理解并使用事理知识。例如对于消费意图识别而言,机器需要知道“去旅游”事件中往往有多种消费事件“买机票”,“订酒店”等。对于对话系统而言,现有的对话系统难以深入理解对话的上下文因果关系,而系统只有理解了常识事理知识,比如“去机场”前“先打车”,才能根据不同上下文给出更智能的回复。对于金融领域,研究股市涨跌因果关系是很有价值的研究内容,比如“食物价格上涨”导致“通货膨胀”,从而导致了“股市下跌”这条因果关系链清晰显示了股市下跌原因,使用类似这种因果事理知识(参考文献:ZhaoS,WangQ,MassungS,etal.ConstructingandEmbeddingAbstractEventCausalityNetworksfromTextSnippets[C].WebSearchandDataMining,2017:335-344.)可以在实际应用中起到重要作用。
技术实现思路
专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种用于对话系统的面向事件画像的文本分析方法,包括如下步骤:步骤1、抽取事件关系;步骤2、抽取事件并结构化;步骤3、计算并融合事件相似度;步骤4、抽取事件触发词和论元。步骤1包括:对因果、顺承、条件、并发、转折事件关系构造事件关联词模板,根据构造的事件关联词模板抽取出事件对,事件关联词模板包括顺承关系抽取模板、因果关系抽取模板、条件关系抽取模板转折关系抽取模板和并发关系抽取模板;其中,顺承关系抽取模板包括两种,因果关系抽取模板包括十种,条件关系抽取模板,转折关系抽取模板和并发关系抽取模板各一种。步骤1中,两种顺承关系抽取模板分别记为模板一和模板二,模板二的优先级高于模板一,句子先匹配模板二,如果匹配成功则获得前后的顺承事件,如果匹配失败再匹配模板一。步骤2中,通过事件抽取算法完成事件抽取,具体包括:步骤2-a1,输入数据库中m个事件文本,进行长句切分:使用标志着句子结束的标点符号对每篇文本进行切分,获得长句集;正则表达式为:r'[??!!。;;::\n\r….·]';r、n是通用的换行符号;步骤2-a2,补齐句子主语:对长句集里每个句子判断其中的短句是否缺少主语,对于指示前一句话的内容的代词,如果所述代词后紧跟因果动词,把代词和代词前的标点符号一同从原句中剔除;步骤2-a3,使用jieba分词工具对长句进行分词处理,并使用jieba.posseg获得每个词的词性,最后获得词语和词性的序列;步骤2-a4,抽取事件关系:使用构造的事件关联词模板,对每个句子提取前事件集、事件关联词和后事件集;对于因果关系事件对的抽取,还需要继续对原因事件匹配模板,最终抽取出原因事件集和结果事件集和后事件短句集;顺承事理图谱中使用的正则表达式是r'[,,]/x',表示短句分割标点符号是中英文逗号,其他关系事理图谱(指的是除了顺承事理图谱外其他的事理图谱)中使用的正则表达式是r'[,、,;和与及且跟()~.]/[x|cp]'。步骤2中,通过结构化算法完成事件结构化,具体包括:步骤2-b1,输入一个句子的前后事件短句集,进行词性处理:短句中要保留的词性标记集合为:['a','b','c','d','wp','i','j','v','n','nh','ni','nl','ns','nz'],词性标准采用863词性标注集,建立停用词库和否定词库,词过滤算法为:对于事件短句里的每个词,如果该词在否定词库中,或者其词性在词性标记集合中并且该词不属于停用词库,保留该词;根据所述词性标记集合、停用词库和否定词库,运用词过滤算法对短句中的每个词进行过滤;步骤2-b2,对步骤2-b1第一次过滤的事件词序列结果进行第二次过滤处理:如果事件短句的第一个词和最后一个词是连词或标点符号,去除该连词或标点符号,不断循环该过程,直到开始和结束词都不是连词或标点符号;步骤2-b3,对事件短句首先判断短句长度是否大于等于2,如果大于等于2,进行事件判定(语句的长度没有限制,只要检测出的词具备主谓结构获主谓宾架构即可以判定为一个事件。在主谓结构下,即具有两个词,如果两个词都没有,则主谓或主谓宾结构失效,不能构成事件),否则直接返回空事件;事件表示规则规定事件具备语义完整性,符合主谓结构或主谓宾结构,事件表示规则包括如下四条:候选事件短句以名词或缩写词开头,动词、形容词或成语结尾;候选事件短句以名词或缩写词开头,动词在短句中间,名词或缩写词结尾;候选事件短句以名词修饰词或形容词开头,名词或缩写词是第二个词,动词、形容词或成语结尾;候选事件短句以名词修饰词或形容词开头,名词或缩写词是第二个词,动词在短句中间,名词或缩写词结尾;步骤2-b4,建立主观性词库,使用主观性词库过滤事件:如果事件短句中包含主观性词库中的词,则事件不属于候选事件,从候选事件短句集中去除;候选事件短句集中包括通过以上步骤已识别的事件;步骤2-b5,建立情感词典,情感词典包括正面情感词、负面情感词、程度副词和否定词;正面情感词赋值为1,负面情感词赋值为-1,中性词赋值为0;程度副词包括共有六种(很、非常、相当、一点、明显地、特别),每种对应不同分值;否定词赋值为-1;根据四种情况计算每个情感词的情感分数,第一种情况是程度副词+否定词+情感词,计算方法如式(1-1)所示:w=t*a*(-1)*2(1-1)第二种情况是否定词+程度副词+情感词,计算方法如式(1-2)所示:w=t*0.5*a(1-2)第三种情况是否定词+情感词,计算方法如式(1-3)所示:w=t*(-1)(1-3)第四种情况是程度副词+情感词,计算方法如式(1-4)所示:w=t*a式(1-4)其中,w表示计算后每个情感词的情感分数,t表示情感词的当前分值,a表示程度副词的分值;对事件短句进行情感分析的流程为:首先对事件短句中每个词的情感分数w置0,然后判断每个词是否是正面情感本文档来自技高网
...

【技术保护点】
1.一种用于对话系统的面向事件画像的文本分析方法,其特征在于,包括如下步骤:/n步骤1、抽取事件关系;/n步骤2、抽取事件并结构化;/n步骤3、计算并融合事件相似度;/n步骤4、抽取事件触发词和论元。/n

【技术特征摘要】
1.一种用于对话系统的面向事件画像的文本分析方法,其特征在于,包括如下步骤:
步骤1、抽取事件关系;
步骤2、抽取事件并结构化;
步骤3、计算并融合事件相似度;
步骤4、抽取事件触发词和论元。


2.根据权利要求1所述的方法,其特征在于,步骤1包括:对因果、顺承、条件、并发、转折事件关系构造事件关联词模板,根据构造的事件关联词模板抽取出事件对,
事件关联词模板包括顺承关系抽取模板、因果关系抽取模板、条件关系抽取模板转折关系抽取模板和并发关系抽取模板;
其中,顺承关系抽取模板包括两种,因果关系抽取模板包括十种,条件关系抽取模板,转折关系抽取模板和并发关系抽取模板各一种。


3.根据权利要求2所述的方法,其特征在于,步骤1中,两种顺承关系抽取模板分别记为模板一和模板二,模板二的优先级高于模板一,句子先匹配模板二,如果匹配成功则获得前后的顺承事件,如果匹配失败再匹配模板一。


4.根据权利要求3所述的方法,其特征在于,步骤2中,通过事件抽取算法完成事件抽取,具体包括:
步骤2-a1,输入数据库中m个事件文本,进行长句切分:使用标志着句子结束的标点符号对每篇文本进行切分,获得长句集;正则表达式为:r'[??!!。;;::\n\r….·]';
步骤2-a2,补齐句子主语:对长句集里每个句子判断其中的短句是否缺少主语,对于指示前一句话的内容的代词,如果所述代词后紧跟因果动词,把代词和代词前的标点符号一同从原句中剔除;
步骤2-a3,使用jieba分词工具对长句进行分词处理,并使用jieba.posseg获得每个词的词性,最后获得词语和词性的序列;
步骤2-a4,抽取事件关系:使用构造的事件关联词模板,对每个句子提取前事件集、事件关联词和后事件集;
对于因果关系事件对的抽取,还需要继续对原因事件匹配模板,最终抽取出原因事件集和结果事件集和后事件短句集;
顺承事理图谱中使用的正则表达式是r'[,,]/x',表示短句分割标点符号是中英文逗号,其他关系事理图谱中使用的正则表达式是r'[,、,;和与及且跟()~.]/[x|cp]'。


5.根据权利要求4所述的方法,其特征在于,步骤2中,通过结构化算法完成事件结构化,具体包括:
步骤2-b1,输入一个句子的前后事件短句集,进行词性处理:短句中要保留的词性标记集合为:['a','b','c','d','wp','i','j','v','n','nh','ni','nl','ns','nz'],词性标准采用863词性标注集,建立停用词库和否定词库,词过滤算法为:对于事件短句里的每个词,如果该词在否定词库中,或者其词性在词性标记集合中并且该词不属于停用词库,保留该词;根据所述词性标记集合、停用词库和否定词库,运用词过滤算法对短句中的每个词进行过滤;
步骤2-b2,对步骤2-b1第一次过滤的事件词序列结果进行第二次过滤处理:如果事件短句的第一个词和最后一个词是连词或标点符号,去除该连词或标点符号,不断循环该过程,直到开始和结束词都不是连词或标点符号;
步骤2-b3,对事件短句首先判断短句长度是否大于等于2,如果大于等于2,进行事件判定,否则直接返回空事件;
事件表示规则规定事件具备语义完整性,符合主谓结构或主谓宾结构,事件表示规则包括如下四条:
候选事件短句以名词或缩写词开头,动词、形容词或成语结尾;
候选事件短句以名词或缩写词开头,动词在短句中间,名词或缩写词结尾;
候选事件短句以名词修饰词或形容词开头,名词或缩写词是第二个词,动词、形容词或成语结尾;
候选事件短句以名词修饰词或形容词开头,名词或缩写词是第二个词,动词在短句中间,名词或缩写词结尾;
步骤2-b4,建立主观性词库,使用主观性词库过滤事件:如果事件短句中包含主观性词库中的词,则事件不属于候选事件,从候选事件短句集中去除;
步骤2-b5,建立情感词典,情感词典包括正面情感词、负面情感词、程度副词和否定词;正面情感词赋值为1,负面情感词赋值为-1,中性词赋值为0;程度副词包括共有六种,每种对应不同分值;否定词赋值为-1;
根据四种情况计算每个情感词的情感分数,第一种情况是程度副词+否定词+情感词,计算方法如式(1-1)所示:
w=t*a*(-1)*2(1-1)
第二种情况是否定词+程度副词+情感词,计算方法如式(1-2)所示:
w=t*0.5*a(1-2)
第三种情况是否定词+情感词,计算方法如式(1-3)所示:
w=t*(-1)(1-3)
第四...

【专利技术属性】
技术研发人员:李彭伟李亚钊程浚李子郑伟阚凌志陈娜吴诗婳郭婉周兆昕
申请(专利权)人:中国电子科技集团公司第二十八研究所
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1