System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及基于事件知识嵌入的汉越跨语言查询拓展方法,属于信息检索。
技术介绍
1、汉越跨语言查询拓展是在输入的源语言(如汉语)查询基础上,根据查询中的事件要素对查询进行目标语言(如越南语)的术语级丰富及拓展,保证查询和拓展内容在描述事件一致的前提下,提升跨语言事件检索的召回率。和通用的术语级查询拓展任务不同,基于事件知识嵌入的跨语言查询拓展的内容依据于查询中的事件,进一步要求拓展的内容和查询内容具有相关的事件要素。相比于术语级查询拓展,跨语言查询拓展增强了模型对查询中事件要素的发掘,提升了拓展内容与事件的相关性和准确性,进一步改进了模型在下游检索任务上的性能。帮助用户跨越语言障碍,对事件进行精准检索,以应用于不同文化之间的交流、突发事件的跟踪等实际场景,促进不同文化之间的交流与理解。
2、汉越跨语言事件查询拓展是一种特殊的跨语言查询拓展任务。传统的跨语言查询拓展通常有两类方法:一方面,利用机器翻译将查询内容翻译成目标语言,再使用目标语言对查询进行拓展。然而,其效果受机器翻译性能的限制。针对中文、英文等资源充足的语言,翻译误差较小,效果较佳;而针对越南语等低资源语言,翻译性能受到限制,人名、地名、组织机构名等重要实体可能存在翻译错误,导致最终拓展后检索的性能不尽如人意。另一方面,对查询使用源语言进行拓展后,再利用多语言词嵌入或多语言预训练模型将不同语言映射到同一语义空间,实现跨语言查询拓展。然而目前存在一些多语言预训练模型,如mbert(multilingual bert),它们在不同语言之间的数据分布存在不平衡的
3、因此,本专利技术提出一种基于事件知识嵌入的汉越跨语言查询拓展方法,通过融合事件知识嵌入技术,本专利技术在特定时间段的向量空间中精准地识别了事件主体与侧面描述术语之间的最佳关联距离,并据此构建了双语共享的语义字典,从而显著优化了高层语义空间的对齐质量。本专利技术方法与一系列基线方法进行了比较,实验结果证明本专利技术方法在查询拓展任务上的有效性。
技术实现思路
1、本专利技术解决的技术问题是:本专利技术提供了基于事件知识嵌入的汉越跨语言查询拓展方法,本专利技术将单一事件主体根据事件内容,通过双语共享语义字典,生成跨语言的事件描述语,从而实现汉越跨语言查询拓展,提升跨语言信息检索的性能。
2、本专利技术的技术方案是:基于事件知识嵌入的汉越跨语言查询拓展方法,所述方法包括:
3、step1、构建汉越跨语言事件及时序数据集;
4、step2、通过事件及时序词嵌入部分将事件所对应的时序内容转化为一个向量空间,并将事件知识嵌入其中,嵌入的事件知识采用多边测量法,通过对主体事件的多个侧面描述进行嵌入;
5、step3、在事件及时序词嵌入的基础上,构建汉越跨语言公共字典,将事件知识从单语拓展到汉越跨语言,通过计算汉语事件和事件侧面描述的相似矩阵,进而在维度上实现双语的对齐;
6、step4、通过计算查询和拓展内容的相似性,得到最终事件主体的查询拓展集合。
7、进一步地,所述step1中,构建汉越跨语言事件及时序数据集,数据集来源于维基百科和越南新闻网中的汉语与越南语部分,使用数据集内问题进行汉越跨语言查询,构建评分体系筛选得到汉越跨语言事件及时序数据集。
8、进一步地,所述step1具体包括:
9、step1.1、通过网络爬虫技术自越南新闻网和维基百科自动获取;首先采集越南新闻网和维基百科编年史年份网页的url;
10、step1.2、通过代码发送伪网页请求,并在请求的包中包含了用户代理和密钥信息,以用于顺利和目标页面的服务器建立安全响应;
11、step1.3、得到网页源代码后,使用python中的etree包对具体网页内容解析;接下来,通过xpath方法,采集所有需要内容的锚点坐标,用于采集网页中指定的文本。
12、进一步地,所述step2具体包括如下:
13、step2.1、根据汉语事件主体x与其对应的越南语事件侧面描述术语集合e,以及越南语事件时序内容t,获得集合e中的多个描述语作为空间中的锚点;
14、step2.2、再采用余弦距离d计算汉语事件主体x和越南语事件侧面描述术语集合e中各锚点的距离:
15、
16、step2.3、最后在时序向量空间中寻找汉语事件主体x的最佳位置,采用l-bfgs优化算法,最小化锚点到事件主体x的余弦距离d和嵌入时序向量空间后锚点与事件主体x的距离v的均方误差mse。
17、进一步地,所述step3具体包括如下:
18、基于原始嵌入汉语事件主体x和越南语事件侧面描述及时序内容(e+t)的轴在性质上不同,分别对应的相似矩阵mx和m(e+t)的两个轴都对应相同的单词;汉语事件主体x和越南语事件侧面描述及时序内容(e+t)的线性变换矩阵分别为wx和w(e+t);
19、step3.1、在汉越两种语言之间构建了一个字典,并将其编码为稀疏矩阵;在这个矩阵中,如果目标语言中的第j个单词是源语言中第i个单词的翻译,则稀疏矩阵中的元素dij的值为1,否则为0;
20、step3.2、对mx和m(e+t)的每一行中的值进行排序,从而得到排序结果sorted(mx)和sorted(m(e+t));给定一个单词及其在sorted(mx)中的行,对sorted(m(e+t))的行应用最近邻检索来找到其相应的翻译;
21、step3.3、使用argmax()函数寻求最大化当前字典 dic 的相似度的最佳正交映射;
22、step3.4、计算映射嵌入xwxw (e+t) (e+t)的相似度矩阵上的最佳字典;
23、step3.5、根据上述通过稀疏矩阵的最佳正交映射得到的最佳字典获得事件主体拓展事件集合ce。
24、进一步地,所述step4具体包括如下:
25、step4.1、根据事件知识嵌入,通过计算查询q和拓展内容的相似性,得到相关事件的集合事件eq,对于检测到的相关事件,创建一个拓展事件集合ce;
26、拓展事件集合ce中包含有两种类型的拓展内容:(1)与查询q高度相近的拓展内容;(2)与相关事件e高度相近的拓展内容;
27、step4.2、对拓展事件候集合ce中的每一个拓展事件c采用两种不本文档来自技高网...
【技术保护点】
1.基于事件知识嵌入的汉越跨语言查询拓展方法,其特征在于:所述方法包括:
2.根据权利要求1所述的基于事件知识嵌入的汉越跨语言查询拓展方法,其特征在于:所述Step1中,构建汉越跨语言事件及时序数据集,数据集来源于维基百科和越南新闻网中的汉语与越南语部分,使用数据集内问题进行汉越跨语言查询,构建评分体系筛选得到汉越跨语言事件及时序数据集。
3.根据权利要求1所述的基于事件知识嵌入的汉越跨语言查询拓展方法,其特征在于:所述Step1具体包括:
4.根据权利要求1所述的基于事件知识嵌入的汉越跨语言查询拓展方法,其特征在于:所述Step2具体包括如下:
5.根据权利要求1所述的基于事件知识嵌入的汉越跨语言查询拓展方法,其特征在于:所述Step3具体包括如下:
6.根据权利要求1所述的基于事件知识嵌入的汉越跨语言查询拓展方法,其特征在于:所述Step4具体包括如下:
【技术特征摘要】
1.基于事件知识嵌入的汉越跨语言查询拓展方法,其特征在于:所述方法包括:
2.根据权利要求1所述的基于事件知识嵌入的汉越跨语言查询拓展方法,其特征在于:所述step1中,构建汉越跨语言事件及时序数据集,数据集来源于维基百科和越南新闻网中的汉语与越南语部分,使用数据集内问题进行汉越跨语言查询,构建评分体系筛选得到汉越跨语言事件及时序数据集。
3.根据权利要求1所述的基于事件知识嵌入的汉越跨...
【专利技术属性】
技术研发人员:黄于欣,武斯萌,线岩团,余正涛,邓同杰,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。