一种事件触发词的抽取方法和装置制造方法及图纸

技术编号：37608754 阅读：34 留言：0更新日期：2023-05-18 12:00

一种事件触发词的抽取方法，包括以下步骤:S1.输入文本；S2.对文本进行分句并计算所分句子特征向量；S3.计算不同段落的触发度衰减系数；S4.计算同一段落中不同位置句子n的价值系数；S5.根据段落衰减系数和句子价值系数计算句子得分，并把句子得分作为词语位置增益，获取事件触发句候选集；S6.对事件触发句候选集中的句子分词，并标注词性和词语情感极性；S7.根据句子位置增益、词性、情感极性计算事件触发度，抽取事件触发词。本发明专利技术能够应用于长文本级别的事件触发词抽取，实现准确、快速、范围广的目的。范围广的目的。范围广的目的。

全部详细技术资料下载

【技术实现步骤摘要】
一种事件触发词的抽取方法和装置

[0001]本专利技术涉及自然语言处理领域，特别涉及一种事件触发词的抽取方法和装置。

技术介绍

[0002]事件抽取旨在将非结构化的文本以结构化的形式呈现。事件触发词抽取是事件抽取的子任务，指句子中能让一个事件发生的核心词语，多为动词或名词。触发词所对应的类别就是该句子当中所包含的事件类别。事件触发词抽取是事件检测中触发词分类和事件论元抽取的基础，也是完成事件抽取不可或缺的一步。
[0003]公布号为CN113468884A的一种中文事件触发词抽取方法及装置，该文件侧重捕获同一类型邻居节点的特征，即考虑句子的上下位关系，并没有衡量同一段落句子与段首句和段末句的向量距离。同时，该对比文件考虑词语的义原信息单位和词语的情感极性，并没有对综合词语的情感极性进行事件触发词的抽取。在另一篇公布号为CN113255321A的基于文章实体词依赖关系的金融领域篇章级事件抽取方法，该对比文件将文章中的实体词依赖关系作为事件抽取深度学习模型的一种输入数据，未考虑文本段落对事件触发的影响，也并没有涉及段落衰减系数以帮助触发词抽取。
[0004]目前事件触发词抽取相关研究暴露的主要问题有：事件触发词的抽取集中在单一句子级别，缺乏长文本事件触发词的研究；未考虑触发词出现的位置信息，不同段落，同一段落不同句子对事件发生的贡献程度不同；未考虑词性和词语感情色彩与事件触发词的关系。

技术实现思路

[0005]本专利技术的目的在于克服现有技术中事件触发词的抽取集中在单一句子级别，缺乏长文...

【技术保护点】

【技术特征摘要】
1.一种事件触发词的抽取方法，其特征在于，包括以下步骤：S1.输入文本；S2.对文本进行分句并计算所分句子特征向量；S3.计算不同段落的触发度衰减系数；S4.计算同一段落中不同位置句子n的价值系数；S5.根据段落衰减系数和句子价值系数计算句子得分，并把句子得分作为词语位置增益，获取事件触发句候选集；S6.对事件触发句候选集中的句子分词，并标注词性和词语情感极性；S7.根据句子位置增益、词性、情感极性计算事件触发度，抽取事件触发词。2.根据权利要求1所述的一种事件触发词的抽取方法，其特征在于，在步骤S2中，所述对文本进行分句，是以句号、感叹号、问号为分句标准对文本进行分句，所述计算所分句子特征向量，是对以句号结尾的分句利用Doc2Vec无监督算法生成固定长度的特征向量来表示所述分句。3.根据权利要求1所述的一种事件触发词的抽取方法，其特征在于，在步骤S3中，所述计算不同段落的触发度衰减系数的计算公式如下：d
i
＝d0e
‑
αi
其中，d0为文本初始段落衰减系数，α>0为指数衰减常数。4.根据权利要求1所述的一种事件触发词的抽取方法，其特征在于，在步骤S4中，所述计算同一段落中不同位置句子n的价值系数，其根据句子n与段首句s和段末句e的定向距离来计算，计算公式如下：其中，Vs、Ve分别为段首句s和段末句e的价值系数，d(n,s)、d(n,e)分别为...

【专利技术属性】
技术研发人员：罗东霞，肖仁杰，张紫薇，
申请(专利权)人：成都市城市安全与应急管理研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人