当前位置: 首页 > 专利查询>天津大学专利>正文

基于量子测量与自注意力机制的问答任务匹配模型及方法技术

技术编号:30156242 阅读:13 留言:0更新日期:2021-09-25 15:07
本发明专利技术公开一种基于量子测量与自注意力机制的问答任务匹配模型,使用one

【技术实现步骤摘要】
基于量子测量与自注意力机制的问答任务匹配模型及方法


[0001]本专利技术涉及属于量子计算和深度学习领域,特别是涉及一种基于量子测量的问答任务匹配模型及方法。

技术介绍

[0002]从2010年开始到现在的十年间,飞速发展的人工智能领域就一直走在计算机科学技术的最前沿,向量空间模型在人工智能领域的决定性地位也在这一时期逐渐开始确立了。与此同时,量子理论的发展对计算机科学的影响也变得越来越多,有关量子理论的重大进展的消息经常出现在日常新闻中。这两个领域背后的数学基础的共同点比人们想象的要多很多,对量子理论公理化的核心数学基础就是向量空间,而这种采用向量空间对量子理论公理化的做法,是用向量空间的线性几何推导量子逻辑和量子概率的关键动机。微小物理粒子之间的量子作用是用张量积建模的,而张量积也被用来表示神经网络中对象和操作。受其启发,一部分科研工作者开始探索用量子理论的数学框架来建模人工智能领域的问题,尝试解决人工智能领域中的不可解释的问题,其中在自然语言处理领域已有不少有趣的模型成果展现。
[0003]线性向量空间在信息检索中使用最早可以追溯到20世纪60年代[1],而对量子理论进行形式化建模则在量子理论发展的早期就被认识到了,之后这个两个领域均有着蓬勃的发展但互不相交。直到Van Rijsbergen[2]意识到量子力学的希尔伯特空间公理化和信息检索的向量空间模型有很多共通甚至是相同之处,这种创造性的思想为后续理解和利用量子理论发展信息检索铺平了道路。第一个真正应用量子理论的数学框架建模信息检索模型的是Sordoni、Nie和Bengio[3],他们研究了如何利用量子信息对标准的unigram和bag

of

words语言模型进行扩展,以适应自然语言中因一词多义或一义多表而产生的上下文依赖关系,并提高信息检索模型的性能。单词的上下文相关性是信息检索中一个长期存在的问题,在实际任务中构建文档的概率或者几何表示时,经常会出现无法处理词组组合性质的问题。一个显而易见的解决办法是把词组作为一个处理单元来对待,就如同处理单个单词一样,但这样每个词组里单词所携带的信息就会有损失或者被完全淹没。此外,这种方式也无法清楚地定义以何种权重组合词组。为了解决这些问题,Sordoni和他的同事们开发了量子语言模型(QLM),提供了一种既可以对语言的上下文相关性进行建模,又不会切断词组表达概率和单词表达概率的建模方式。通常在信息检索中对语言建模可以通过将词汇表中的每一项投影到一个基向量来表示,例如使用one

hot编码,然后就可以定义投影算子,以获取特定上下文中每个词组或者句子的投影概率。在量子语言模型中,词组的表达式可以表示为其每一部分对应的基向量的加权叠加:
[0004]|xy>=α0|x>+α1|y>
[0005]其中|x>和|y>是单个单词向量,|xy>是词组的向量表达式,α0和α1分别为单词的叠加权重,且单个单词的叠加权重保持归一化,即
[0006]|α0|2+|α1|2=1
[0007]这种组合方式可以在很大程度上保留复合词组中每个单词语义的存在,也提供了一种加权一个复合短语中单词相对重要性的方式,比如,在需要查询关于“量子理论”的文档时,单独包含“量子”的文档应当比单独包含“理论”的文档更有可能被检索到,则在这种查询任务中,组合短语“量子理论”中“量子”的语义重要性就比“理论”的语义重要性更高。给定一个文本,使用近似算法学习模型参数,该算法只是试图找到能最大限度地提高查询到特定文档的概率的参数,并没有准确建模语言的这种关系。在量子语言模型中,从四个信息检索数据集中选取的450个查询中,量子语言模型都获得了最好性能,在两个基于网络的大型数据集中,量子语言模型与使用马尔可夫随机场[4]的unigram语言模型相比,在统计上有显著的改进。
[0008]在此之后,越来越多的量子理论概念被用于语言建模,例如基于认知模型中单词联想的纠缠研究[5][6],Kartsaklis和Sadrzadeh[7]在Coecke的分类框架[8]中,利用张量探索了及物动词的纠缠表示。Rijsbergen的理论也被用来为向量空间中的信息检索建模提供逻辑,Pan Zhang构建了一个使用密度矩阵建模语言的量子神经网络语言模型(NNQLM)[9][10],通过将词嵌入单位向量作为基本态,将句子作为密度矩阵的方式建模语言,而Qiuchi Li[11]则利用了密度矩阵概率性质的潜力,引入复数来得到更好的性能以及更强的可解释性。
[0009][参考文献][0010][1]Switzer,P.Vector images in document retrieval[J].Statistical association methods for mechanized documentation,1965:163

171.
[0011][2]Rijsbergen C V.The Geometry of Information Retrieval:Linear transformations,operators and matrices[M].Cambridge University Press 2004.
[0012][3]Sordoni,A.,Nie,J.Y.,and Bengio,Y.Modeling Term Dependencies with Quantum Language Models for IR[C].In Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval.2013:653

662.
[0013][4]Metzler,D.,and Croft,W.B.A Markov random field model for term dependencies[C].In Proceedings of the 28th annual international ACM SIGIR conference on research and development in information retrieval.2005:472

479.
[0014][5]Bruza P D,Lawless W,Rijsbergen K V,et al.Quantum Interaction:Proceedings of the Second Quantum Interaction Symposium

Qi

2008[J].College Publications,2008:118

124.
[0015][本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于量子测量与自注意力机制的问答任务匹配模型,其特征在于,所述任务匹配模型包括端到端的量子语言系统;所述量子语言系统由语言编码器、测量矩阵编码器、问答匹配模块构成;其中问答句子中单个词被认为是语言最小单位语义的叠加;不同词之间能够相互关联;句子被视为混合状态的物理系统,由不同的单词组合而成,并且通过权重衡量单词组合之间关系;形式上,单词建模为多维希尔伯特空间中的单位向量,并由纯态密度矩阵表示,句子是权重被归一化的纯态密度矩阵的叠加;在问答匹配任务中,句子的密度矩阵由一组正交的测量向量投影到投影平面,结果的长度对应于句子的密度矩阵被投影到平面的概率。2.根据权利要求1所述的一种基于量子测量与自注意力机制的问答任务匹配模型,其特征在于,所述语言编码器包括嵌入层和混合层;其中:所述嵌入层是初始化单词编码;每个词向量都由实部和虚部组成,在数学定义上,问答任务匹配模型将语义定义为正交的基态集合作为语言的最小单位,其中e
j
为one

hot向量;单词作为语义的叠加态由定义,其中满足是实值非负的振幅,对应于词向量的长度,类似量子理论中粒子波函数的表示方式;所述混合层是将单词编码进行计算,使用自注意力机制获得词嵌入混合的权重,每个句子在训练中获得自身的语义权重,并对每个单词的复向量做外积得到单词纯态的密度矩阵表示,再将纯态密度矩阵加权相加得到单词组合的混合态密度矩阵,每个单词组合的密度矩阵表示为其中p(w
j
)是由自注意力层获取的权重π(w
i
)并经过softmax归一化,权重p(w
j
)满足描述了语义单元相对重要性的概率分布,|w
j
><w
j
|是上文提到的语义叠加态做外积;所述语言编码器对...

【专利技术属性】
技术研发人员:宋世凯宫秀军侯越先
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1