一种事件触发词的抽取方法,包括以下步骤:S1.输入文本;S2.对文本进行分句并计算所分句子特征向量;S3.计算不同段落的触发度衰减系数;S4.计算同一段落中不同位置句子n的价值系数;S5.根据段落衰减系数和句子价值系数计算句子得分,并把句子得分作为词语位置增益,获取事件触发句候选集;S6.对事件触发句候选集中的句子分词,并标注词性和词语情感极性;S7.根据句子位置增益、词性、情感极性计算事件触发度,抽取事件触发词。本发明专利技术能够应用于长文本级别的事件触发词抽取,实现准确、快速、范围广的目的。范围广的目的。范围广的目的。
【技术实现步骤摘要】
一种事件触发词的抽取方法和装置
[0001]本专利技术涉及自然语言处理领域,特别涉及一种事件触发词的抽取方法和装置。
技术介绍
[0002]事件抽取旨在将非结构化的文本以结构化的形式呈现。事件触发词抽取是事件抽取的子任务,指句子中能让一个事件发生的核心词语,多为动词或名词。触发词所对应的类别就是该句子当中所包含的事件类别。事件触发词抽取是事件检测中触发词分类和事件论元抽取的基础,也是完成事件抽取不可或缺的一步。
[0003]公布号为CN113468884A的一种中文事件触发词抽取方法及装置,该文件侧重捕获同一类型邻居节点的特征,即考虑句子的上下位关系,并没有衡量同一段落句子与段首句和段末句的向量距离。同时,该对比文件考虑词语的义原信息单位和词语的情感极性,并没有对综合词语的情感极性进行事件触发词的抽取。在另一篇公布号为CN113255321A的基于文章实体词依赖关系的金融领域篇章级事件抽取方法,该对比文件将文章中的实体词依赖关系作为事件抽取深度学习模型的一种输入数据,未考虑文本段落对事件触发的影响,也并没有涉及段落衰减系数以帮助触发词抽取。
[0004]目前事件触发词抽取相关研究暴露的主要问题有:事件触发词的抽取集中在单一句子级别,缺乏长文本事件触发词的研究;未考虑触发词出现的位置信息,不同段落,同一段落不同句子对事件发生的贡献程度不同;未考虑词性和词语感情色彩与事件触发词的关系。
技术实现思路
[0005]本专利技术的目的在于克服现有技术中事件触发词的抽取集中在单一句子级别,缺乏长文本事件触发词抽取方法的问题,提供一种事件触发词的抽取方法。为了实现上述专利技术目的,本专利技术提供了以下技术方案:
[0006]一种事件触发词的抽取方法,其特征在于,包括以下步骤:
[0007]S1.输入文本;
[0008]S2.对文本进行分句并计算所分句子特征向量;
[0009]S3.计算不同段落的触发度衰减系数;
[0010]S4.计算同一段落中不同位置句子n的价值系数;
[0011]S5.根据段落衰减系数和句子价值系数计算句子得分,并把句子得分作为词语位置增益,获取事件触发句候选集;
[0012]S6.对事件触发句候选集中的句子分词,并标注词性和词语情感极性;
[0013]S7.根据句子位置增益、词性、情感极性计算事件触发度,抽取事件触发词。优选地,在步骤S2中,所述对文本进行分句,是以句号、感叹号、问号为分句标准对文本进行分句,所述计算所分句子特征向量,是对以句号结尾的分句利用Doc2Vec无监督算法生成固定长度的特征向量来表示所述分句。
[0014]优选地,在步骤S3中,所述计算不同段落的触发度衰减系数的计算公式如下:
[0015]d
i
=d0e
‑
αi
[0016]其中,d0为文本初始段落衰减系数,α>0为指数衰减常数。
[0017]优选地,在步骤S4中,所述计算同一段落中不同位置句子n的价值系数,其根据句子n与段首句s和段末句e的定向距离来计算,计算公式如下:
[0018][0019]其中,Vs、Ve分别为段首句s和段末句e的价值系数,d(n,s)、d(n,e)分别为当前句子n与段首句s段末句e的向量距离。
[0020]优选地,所述根据段落衰减系数和句子价值系数计算句子得分,其计算公式如下:
[0021]Score(n|i)=d
i
V(n)
[0022]优选地,所述对事件触发句候选集中的句子分词,并标注词性和词语情感极性,是采用双向最大匹配法对候选集中的句子进行分词,去除停用词、标点符号,对剩余词进行词性标注,去除语气词、主助词、疑问词,将词的情感极性分为正极、负极和中性。
[0023]优选地,所述的根据句子位置增益、词性、情感极性计算事件触发度,抽取事件触发词,事件触发度的计算公式如下:
[0024]Trigger(m)=Score(m)attr(m)|emo(m)|
[0025]其中,attr(m)为词m的词性权值,取值范围为0到1,emo(m)为词m的情感极性权值,取值范围为
‑
1到1,
[0026]根据所计算的触发度结果,则确定触发度最高的词语为文本事件的触发词。
[0027]一种事件触发器词的抽取装置,包含至少一个处理器和至少一个处理器通信连接的存储器,所述存储器存储有可被至少一个处理器执行的指令,所述指令被至少一个处理器执行,以使至少一个处理器能够执行所述方法任意一项所述的指令。
[0028]与现有技术相比,本专利技术的有益效果:
[0029]本专利技术根据文本不同段落,同一段落不同位置的句子以及词语词性和情感极性对事件触发度的影响,提出段落衰减系数和句子位置价值系数计算公式,并基于衰减系数和价值系数筛选事件触发句候选集作为触发词的抽取池,根据词语在文本全局中的位置增益、词性和情感极性完成事件触发词抽取,能够应用于长文本级别的事件触发词抽取,实现了准确、快速、范围广的目的。
附图说明:
[0030]图1为本专利技术的流程图
[0031]图2为实施例1的文本图
具体实施方式
[0032]下面结合试验例及具体实施方式对本专利技术作进一步的详细描述。但不应将此理解为本专利技术上述主题的范围仅限于以下的实施例,凡基于本
技术实现思路
所实现的技术均属于本专利技术的范围。
[0033]实施例
[0034]本实施例以成都日报2022年2月14日的《成都野生鸟类朋友圈又扩大了》报道为例,进行事件触发词抽取的阐述。
[0035]如图1所示,一种文本主题句抽取方法包含以下步骤:
[0036]步骤一、输入文本。本实施例中输入成都日报2022年2月14日的《成都野生鸟类朋友圈又扩大了》报道内容。
[0037]步骤二、分句并计算句子特征向量。对报道内容进行分句,以句号、感叹号、问号标志一句话的结束。事件通常以陈述句表述,因此在分句完成之后删除以感叹号和问号结尾的句子,接着通过学习Doc2Vec无监督算法,对变长句子生成固定长度的特征向量表示。
[0038]步骤三、计算不同段落的触发度衰减系数d(i),同一文本中不同段落对事件触发的贡献度不同,对于新闻和报纸文章等文本而言,随着段落号的增加,对文本事件触发的贡献度急剧减小,如图2所示为本实施例的段落衰减系数示意图,其计算公式如下:
[0039]d
i
=d0e
‑
αi
[0040]其中,d0为文本初始段落衰减系数,于本实施例中设置为d0=1;α为指数衰减常数,本实施例中令α=2。
[0041]步骤四、计算同一段落中不同位置句子n的价值系数V(n)。一般而言,段落的首尾句子出现总结性陈述语句的概率较大,即出现事件触发句(包含事件触发词的关键性语句)的概率较大,而其他位置出现事件触发句的概率较小。如所示对于同一段落中不同位置的句子本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种事件触发词的抽取方法,其特征在于,包括以下步骤:S1.输入文本;S2.对文本进行分句并计算所分句子特征向量;S3.计算不同段落的触发度衰减系数;S4.计算同一段落中不同位置句子n的价值系数;S5.根据段落衰减系数和句子价值系数计算句子得分,并把句子得分作为词语位置增益,获取事件触发句候选集;S6.对事件触发句候选集中的句子分词,并标注词性和词语情感极性;S7.根据句子位置增益、词性、情感极性计算事件触发度,抽取事件触发词。2.根据权利要求1所述的一种事件触发词的抽取方法,其特征在于,在步骤S2中,所述对文本进行分句,是以句号、感叹号、问号为分句标准对文本进行分句,所述计算所分句子特征向量,是对以句号结尾的分句利用Doc2Vec无监督算法生成固定长度的特征向量来表示所述分句。3.根据权利要求1所述的一种事件触发词的抽取方法,其特征在于,在步骤S3中,所述计算不同段落的触发度衰减系数的计算公式如下:d
i
=d0e
‑
αi
其中,d0为文本初始段落衰减系数,α>0为指数衰减常数。4.根据权利要求1所述的一种事件触发词的抽取方法,其特征在于,在步骤S4中,所述计算同一段落中不同位置句子n的价值系数,其根据句子n与段首句s和段末句e的定向距离来计算,计算公式如下:其中,Vs、Ve分别为段首句s和段末句e的价值系数,d(n,s)、d(n,e)分别为...
【专利技术属性】
技术研发人员:罗东霞,肖仁杰,张紫薇,
申请(专利权)人:成都市城市安全与应急管理研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。