【技术实现步骤摘要】
一种量子文本特征选择方法
[0001]本专利技术涉及机器学习领域,尤其涉及一种量子文本特征选择方法。
技术介绍
[0002]机器学习是通过对样本对象的属性或者特征进行分析,得到一个模型。在进行文档分类时,文档对象一般拥有很多特征(例如标题、生成时间,摘要,长度等),其中有些特征对建立模型非常关键,有些却没用,为此机器学习前需要把对建立模型有用的特征挑选出来,即特征选择,即选取出所有特征集合中的最优子集。在量子计算机上,由于量子状态的不可观察和不可拷贝性,使得传统的文档特征选择算法失效,为此需要针对量子计算环境建立量子文档特征选择方法,其中文档特征集合的计算是关键,为此需要研究量子最优文档特征子集方法。最优文档特征子集的选择可以转化为搜索问题,量子计算模型中最通用的模型是量子线路模型,本专利技术基于量子线路模型来进行最优量子文档特征子集搜索。
技术实现思路
[0003]量子文档特征选择是量子文档分类的一个重要应用技术,针对现有的技术缺乏采用量子计算机下的最优文档特征选择方法,本专利技术开发了基于量子线路的量子文档特征选择技术。
[0004]总体来说,本专利技术解决的问题如下:
[0005]对于包含n个文档的d维数据集D,不同文档特征组成的d个量子文档特征集合F={|a1>,|a2>,
…
,|a
d
>},其中每一个元素|a
i
>为一个量子文档特征,量子文档特征选择就是搜索出最能代表
【技术保护点】
【技术特征摘要】
1.一种量子文本特征选择方法,其特征在于:包括以下步骤:S101:构建n个文档的d维数据集D,不同文档特征组成的d个量子文档特征集合F={|a1>,|a2>,...,|a
d
>},其中每一个元素|a
i
>为一个量子文档特征;S102:创建搜索过程:从集合F中搜索最优文档特征子集,过程共包括K+1个SFS量子计算模块,每一个SFS量子计算模块输入当前已经获取的最优文档特征子集,然后再剩余的文档特征中选取一个最优的文档特征与当前已经获取的最优文档特征子集合在一起生成新的最优文档特征子集,直到找不到新的最优文档特征为止。2.如权利要求1所述的一种量子文本特征选择方法,其特征在于:步骤S102具体为:将d个初态量子文档特征量子比特|0>和一个辅助量子比特|1>输入至第一个SFS量子计算模块;第一个SFS量子计算模块根据输入的量子文档特征比特,计算生成一个最优量子文档特征|a1>,并最终输出|a1>、d
‑
1个量子比特|0>和一个辅助量子比特|1>;把第一个SFS量子计算模块的输出作为第二个SFS量子计算模块的输入;第二个SFS量子计算模块在除去|a1>的剩下d
‑
1个量子文档特征中计算生成一个最优量子文档特征|a2>,使得集合{|a1>,|a2>}比|a1>更优;第二个SFS量子计算模块输出集合{|a1>,|a2>},d
‑
2个量子比特|0>和一个辅助量子比特|1>,并将其输入至第三个SFS量子计算模块;依次过程,在第i轮搜索时,第i个SFS量子计算模块的输入为:{|a1>,|a2>,...,|a
i
‑1>}、d
‑
i+1个量子比特|0>和一个辅助量子比特|1>,第i个SFS量子计算模块在剩下的d
‑
i+1个量子文档特征中生成一个最优量子比特|a
i
>,并输出{|a1>,|a2>,...,|a
i
>}、d
‑
i个量子比特|0>和一个辅助量子比特|1>,同时将其作为第i+1个SFS计算模块的输入;直至第k+1轮搜索时,第k+1个SFS计算模块的输入为{|a1>,|a2>,...,|a
k
>}、第d
‑
k个量子比特|0>和一个辅助量子比特|1>;如果第k+1个SFS计算模块无法在剩下的d
‑
k个量子文档特征中找到一个量子比特|a
k+1
>,使得集合{|a1>,|a2>,...,|a
k+1
>}比{|a1>,|a2>,...,|a
k
>}更优,则搜索结束,输出最优文档特征子集OF={|a1>,|a2>,...,|a
k
>},其中|a
i
>∈OF,|a
i
>∈F,1≤i≤k,k≤d。3.如权利要求2所述的一种量子文本...
【专利技术属性】
技术研发人员:余鹏飞,路松峰,
申请(专利权)人:武汉辰亚科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。