System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及基于事件要素图的跨境民族文化事件检索方法及装置,属于自然语言处理。
技术介绍
1、事件检索是从大量互联网文本中检索与用户查询相关的事件的过程,跨境民族文化事件检索就是从大量跨境民族文化文本中查找出用户关心的事件的信息。事件检索任务本质上是寻找与查询最相关的文档,因此,使用文档检索的方法够较好的完成事件检索的任务。目前,利用深度学习技术完成文档检索任务已经成为当前主流方法。基于对比学习的密集检索方法,使用近似最近邻算法(approximate nearest neighbor,ann)对候选文档进行负采样,通过一个推断器对上一轮训练中的文档计算编码,然后根据编码更新用于负采样的ann索引,从中选取硬负例,以更新模型训练。以此种方式选择的负样例比从批内负采样的方式具有更好地拉开相关文档和不相关文档在语义空间中的距离,从而提高了密集检索模型的效果。基于对比学习构建正负“查询”样本;通过优化这两种正负样本的表征在语义空间中的距离,能够较大提升模型对文本的表征能力,从而提升检索的效果。
2、以上方法围绕通用领域事件检索进行相关研究,已经取得了较好的效果,而在跨境民族文化领域中的事件检索任务还存在着一些难点问题。在跨境民族文化事件检索任务中,通常用于查询的文本为某些事件的一些简短描述或关键词,而这些简短描述或关键词中常常存在一些领域实体,导致检索结果多为关于这些领域实体的科普性文本,造成跨境民族文化事件检索结果与查询事件相关度较低的问题。
3、针对以上问题,本专利技术提出了一种基于事件要素图的跨境民族文
技术实现思路
1、本专利技术提供了基于事件要素图的跨境民族文化事件检索方法及装置,以缓解跨境民族文化事件检索结果与查询事件相关度较低的问题,提升了跨境民族文化事件检索的效果。
2、本专利技术的技术方案是:第一方面,本专利技术提供基于事件要素图的跨境民族文化事件检索方法,所述基于事件要素图的跨境民族文化事件检索方法的具体步骤如下:
3、step1、跨境民族文件事件数据集构建及数据预处理:互联网中缺乏公开的跨境民族文件事件抽取数据集,无法训练事件抽取模型,因此本专利技术通过收集网络资源构造傣族、彝族、苗族、壮族等跨境民族的相关数据,并对数据进行预处理,最终构建10万条跨境民族文化事件检索数据集。
4、step2、事件要素图构建:图结构能够较好的建模事件之间的关联关系,针对跨境民族文化事件检索存在的查询事件与检索结果相关性较低的问题。本专利技术通过构建跨境民族文化事件要素图,有效解决上述问题。
5、step3、基于事件要素图的跨境民族文化事件检索模型训练:针对跨境民族文化事件检索结果与查询事件相关度较低的问题,本专利技术使用图嵌入方法建立事件关联关系表征,并使用对比学习方法进行模型优化。
6、step4、基于事件要素图的跨境民族文化事件检索:将训练好的端到端事件要素图的跨境民族文化事件检索模型进行保存,封装并部署于服务器上,建立api以便其他应用程序与模型交互,进行数据预处理后进行推理,实现基于事件要素图的跨境民族文化事件的自动检索。
7、作为本专利技术的优选方案,所述步骤step1的具体步骤为:
8、step1.1、为了解决互联网中缺乏公开的跨境民族文件事件检索数据集,本专利技术通过维基百科、twitter、库弄傈僳民族网等媒体,获取傣族、彝族、苗族、壮族等跨境民族的相关数据,总共收集到相关文档两万余篇。但获取到的跨境民族文化数据结构仍不能满足标注需要,在有监督的跨境民族文化事件检索模型训练中,需要具有一定规模的高质量标注数据。针对特定领域的事件检索任务,标注数据集的标注质量对于模型检索事件要素的效果有着较大的影响。利用跨境民族文化领域词典对文档进行分词、去除无意义的停用词。通过数据预处理将文本按照文档序列切分为一个个句子,最后将切分出的句子用于跨境民族文化事件检索数据集构建,切分出的文档用于跨境民族文化事件检索数据标注,对文档进行编号,最终得到两万余篇待标注文档。
9、step1.2、人工从这些文档中提炼出简短的事件描述作为跨境民族文化事件检索任务的查询,然后对这些查询按照与文档一一对应的方式进行编号,完成跨境民族文化事件检索数据集的标注。在完成跨境民族文化事件检索数据集的标注后,最终得到10万条跨境民族文化事件检索抽取数据集,事件检索数据样例如表1所示。
10、表1事件检索数据样例表
11、
12、作为本专利技术的优选方案,所述步骤step2的具体步骤为:
13、step2.1、为了解决跨境民族文化事件检索存在的查询事件与检索结果相关性较低的问题,本专利技术通过构建跨境民族文化事件要素图,将文档和事件相关信息关联起来,通过图嵌入方法将事件要素图与查询文本融合,增加查询文本中的事件知识,以此来缓解上述问题。本专利技术首先使用跨境民族文化事件抽取方法,抽取出跨境民族文化相关的事件信息,公式如下:
14、{event1,event2,...,eventm}=event(doc)
15、event={t,(e1,r1),...,(en,rn)}
16、其中,event表示事件,doc表示待抽取的文档,m表示从文档中抽取出的事件数。t表示触发词,e和r表示事件要素及其角色,n指事件要素的个数。
17、step2.2、在抽取出跨境民族文化相关的事件信息的基础上,以文档、文档的发布时间、事件触发词以及事件要素为节点,以事件要素的角色以及文档之间的事件相关度为边,构建跨境民族文化事件要素图。在该图中,共存在四种类型的边“文档-文档”、“文档-事件触发词”、“文档-发布时间”以及“事件触发词-事件要素”。其中,同属于一个事件之间的事件触发词与事件要素之间以事件角色为关系,构建“事件触发词-事件要素”边,同属于一个文档的事件与文档之间以包含关系,构建“文档-事件触发词”边,发布时间与文档之间以日期为关系,构建“文档-发布时间”边;文档与文档之间,通过计算其事件相关度并以其为依据以时序为关系,构建“文档-文档”边。通过图嵌入方法将事件要素图与查询文本融合,增加查询文本中的事件知识,构建的跨境民族文化事件要素图如图2所示。
18、作为本专利技术的优选方案,所述步骤step3的具体步骤为:
19、step3.1、为了解决由于查询文本缺少足够的事件信息,造成模型检索结果与查询本文档来自技高网...
【技术保护点】
1.基于事件要素图的跨境民族文化事件检索方法,其特征在于:所述方法的具体步骤如下:
2.根据权利要求1所述的基于事件要素图的跨境民族文化事件检索方法,其特征在于:所述Step1的具体步骤为:
3.根据权利要求1所述的基于事件要素图的跨境民族文化事件检索方法,其特征在于:所述Step2的具体步骤为:
4.根据权利要求1所述的基于事件要素图的跨境民族文化事件检索方法,其特征在于:所述Step3的具体步骤为:
5.根据权利要求1所述的基于事件要素图的跨境民族文化事件检索方法,其特征在于:所述Step4的具体步骤为:
6.基于事件要素图的跨境民族文化事件检索装置,其特征在于,包括用于执行如权利要求1-5任一权利要求所述的方法的模块。
【技术特征摘要】
1.基于事件要素图的跨境民族文化事件检索方法,其特征在于:所述方法的具体步骤如下:
2.根据权利要求1所述的基于事件要素图的跨境民族文化事件检索方法,其特征在于:所述step1的具体步骤为:
3.根据权利要求1所述的基于事件要素图的跨境民族文化事件检索方法,其特征在于:所述step2的具体步骤为:
4.根据权...
【专利技术属性】
技术研发人员:毛存礼,栾易非,余正涛,张勇丙,黄于欣,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。