System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人工智能,具体涉及一种基于word2vec-qcnn模型的文本表示系统、方法及其在电力领域词库构建的应用。
技术介绍
1、构建词库过程中,重点是使用合适方法对词进行表示,以提取词的特征。目前主要有传统表示模型与基于深度学习表示模型两类方法。
2、传统表示模型:独热编码,它将词表示为一串与词表维度一样的稀疏向量,向量由0和1组成。该模型忽视了上下文语义特征的关联且特征维度大。
3、基于深度学习的表示模型:基于distributed representation表示词的方式,是一种基于同现统计的方法。通过观察词在上下文中的分布情况对其进行表示。该方法考虑了词的顺序,但依然没有很好的表达语义。三层结构的神经网络语言模型(neutralnetwork language model,nnlm)将词表示为低维的词向量,再把词向量映射到一个向量空间,语义越相似的词,其向量也越相似。但该模型的前馈网络参数过多导致训练效果低。elmo模型通过双层双向lstm网络获得词的三个中间表示,再将这三个中间表示加权得到elmo表示。该模型能够提高词向量的质量,但依然避免不了特征维度大的问题。卷积序列模型与transformer模型都通过位置进行编码,只考虑了词序信息。复值嵌入的词表示模型新颖有效,但复杂性高,占用大量计算机资源。
技术实现思路
1、有鉴于此,本专利技术提供了一种基于word2vec-qcnn模型的文本表示系统、方法及其在电力领域词库构建的应用,用以至少解决
2、为了实现上述目的,本专利技术采用如下技术方案:
3、一种基于word2vec-qcnn模型的文本表示系统,包括:文本预处理模块、向量转换模块、特征提取模块、聚类模块和词集对比模块;
4、文本预处理模块,用于对文本进行分词和去停用,剔除待表示文本中无意义信息;
5、向量转换模块包括第一训练单元和word2vec模型,通过第一训练单元对word2vec模型进行训练,采用训练后的word2vec模型将预处理后的单词分别均映射到隐藏层表示空间中,得到预处理后的单词对应的词向量;
6、特征提取模块包括第二训练单元、qcnn模型和编码单元,通过第二训练单元对qcnn模型进行训练,通过编码单元采用振幅编码的方式将词向量编码为量子态,利用训练好的qcnn模型对量子态的词向量进行卷积完成特征提取,并对所提取的特征进行池化完成降维,去除冗余特征,对降维后的特征进行量子测量,将量子态投影到新的经典空间,得到三维词向量。
7、优选的,word2vec模型包括输入层、单层隐藏层和输出层;
8、输入层xv为独热编码生成的高维向量,其中v为词汇表中单词的数量,输入层xv通过权重矩阵wv×n与隐藏层hn连接,其中n为词向量的维度,权重矩阵wv×n将输入层中的词向量映射到隐藏层的表示空间中;隐藏层hn通过权重矩阵w'n×v与输出层yv连接,权重矩阵w'n×v将隐藏层的词向量映射到输出层的表示空间中;
9、第一训练单元在控制word2vec模型进行训练的过程中,通过反向传播算法,调整权重矩阵wv×n与w'n×v的数值,直至训练结束。
10、优选的,编码单元通过振幅编码的方式把经典信息编码成量子电路可读取的量子态,具体编码内容包括:
11、对word2vec模型输出的词向量数据进行补零和归一化处理将其表示为具有n个特征值的n维经典向量x,其中归一化条件为:
12、|x|2=1
13、振幅编码将补零和归一化处理得到的n维经典向量x编码为n量子比特的量子态:
14、
15、其中,n=log2(n),|i>为一组希尔伯特空间的计算基。
16、优选的,qcnn模型包括量子卷积层、量子池化层和量子全连接层;
17、量子卷积层包括若干个双量子比特门,通过双量子比特门对相邻量子比特相互纠缠,实现对量子态部分概率幅的酉变换操作完成特征提取,得到量子态特征,经过训练后得到量子卷积层的酉变换算子u(θ1);
18、量子池化层包括若干个量子测量操作与经典受控量子门,经过量子卷积层得到的量子态特征仍储存在量子比特中,量子态特征中相邻量子比特两两为组,量子测量操作通过测量每组其中一量子位,将所得到的特征坍缩为经典数据,不参与后续的网络操作,同时,经典受控量子门根据量子测量操作所测结果,对每组中未测量的量子位施加不同的酉变换,经过训练后得到量子池化层的酉变换算子v(θ2);
19、量子全连接层包括经典受控量子门和pauli测量单元,经典受控量子门用于将经过量子卷积层与量子池化层后还未测量的量子态特征存储在未经测量的量子位中,通过施加酉变换将量子态特征密集连接,经过训练后得到量子全连接层的酉变换算子g(θ3),pauli测量单元用于对未经测量的量子位进行测量,将量子态投影到新的经典空间,pauli测量单元m={x,y,z}得到量子系统的输出,每一个投影均从不同的角度去观测希尔伯特空间的量子态,最终得到三维的词向量(ex,ey,ez):
20、
21、
22、
23、其中,|x>为输入量子态,u(θ1)、v(θ2)和g(θ3)分别为量子卷积层、量子池化层与量子全连接层中可训练的酉算子的乘积。
24、优选的,还包括聚类模块,聚类模块采用qpso算法对word2vec-qcnn模型表示的三维词向量进行聚类;
25、量子粒子的位置由局部吸引子与势阱收缩扩张系数α决定,第i个量子粒子的局部吸引子为:
26、
27、其中,为均匀分布在0~1区间的随机数;pin为个体最优位置;pgn为全局最优位置;
28、量子粒子的位置迭代方程为:
29、
30、其中,u为均匀分布在0~1区间的随机数;mbest为平均最好位置。
31、优选的,还包括词集对比模块,用于对聚类得到的词集与非专业词集进行对比,剔除重叠词,获得最终专业领域词集。
32、优选的,还包括评价模块;
33、采用适应值函数作为评价解的优劣程度的标准,适应值为所有词向量距其所属聚类中心的夹角余弦值之和,适应值与夹角余弦值具体为:
34、
35、
36、其中,cin为第i个量子粒子中的第n个簇;min为cin簇中的聚类中心;
37、cos(di,min)为词向量di与cin簇中的聚类中心的夹角余弦值;
38、采用准确率p和召回率r以及它们的加权平均值fmeasure作为外部评价标准:
39、
40、
41、
42、其中,cn为聚类所得专业领域词集中正确词语数,m1为数据集中词语总数,m2为专业领域本文档来自技高网...
【技术保护点】
1.一种基于Word2vec-QCNN模型的文本表示系统,其特征在于,包括:文本预处理模块、向量转换模块、特征提取模块、聚类模块和词集对比模块;
2.根据权利要求1所述的一种基于Word2vec-QCNN模型的文本表示系统,其特征在于,Word2vec模型包括输入层、单层隐藏层和输出层;
3.根据权利要求1所述的一种基于Word2vec-QCNN模型的文本表示系统,其特征在于,编码单元通过振幅编码的方式把经典信息编码成量子电路可读取的量子态,具体编码内容包括:
4.根据权利要求1所述的一种基于Word2vec-QCNN模型的文本表示系统,其特征在于,QCNN模型包括量子卷积层、量子池化层和量子全连接层;
5.根据权利要求1所述的一种基于Word2vec-QCNN模型的文本表示系统,其特征在于,还包括聚类模块,聚类模块采用QPSO算法对Word2vec-QCNN模型表示的三维词向量进行聚类;
6.根据权利要求5所述的一种基于Word2vec-QCNN模型的文本表示系统,其特征在于,还包括词集对比模块,用于对聚类得到的词集与
7.根据权利要求6所述的一种基于Word2vec-QCNN模型的文本表示系统,其特征在于,还包括评价模块;
8.一种基于Word2vec-QCNN模型的文本表示方法,根据权利要求1-7任意一项权利要求所述的一种基于Word2vec-QCNN模型的文本表示系统,其特征在于,包括以下步骤:
9.一种基于Word2vec-QCNN的电力词库构建方法,其特征在于,通过一种基于Word2vec-QCNN模型的文本表示方法获取输入文本对应的三维词向量,采用QPSO算法对三维词向量进行聚类,并对聚类得到的词集与非专业词集进行对比,剔除重叠词,获得最终电力领域词集。
...【技术特征摘要】
1.一种基于word2vec-qcnn模型的文本表示系统,其特征在于,包括:文本预处理模块、向量转换模块、特征提取模块、聚类模块和词集对比模块;
2.根据权利要求1所述的一种基于word2vec-qcnn模型的文本表示系统,其特征在于,word2vec模型包括输入层、单层隐藏层和输出层;
3.根据权利要求1所述的一种基于word2vec-qcnn模型的文本表示系统,其特征在于,编码单元通过振幅编码的方式把经典信息编码成量子电路可读取的量子态,具体编码内容包括:
4.根据权利要求1所述的一种基于word2vec-qcnn模型的文本表示系统,其特征在于,qcnn模型包括量子卷积层、量子池化层和量子全连接层;
5.根据权利要求1所述的一种基于word2vec-qcnn模型的文本表示系统,其特征在于,还包括聚类模块,聚类模块采用qpso算法对word2vec-qcnn模型...
【专利技术属性】
技术研发人员:何洪英,罗滇生,刘楠,罗广唯,陈海文,
申请(专利权)人:湖南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。