本发明专利技术公开了一种基于类马氏相关性度量的跨媒体检索方法,包括以下步骤:输入文本、图像数据库;把文本和图像都分为训练集与测试集;对文本和图像的训练集与测试集提取特征,得到训练特征集与测试特征集;把文本和图像的特征集的数据统一到同一子空间;应用类马氏距离公式计算统一到同一子空间后文本和图像测试集之间的相关性;根据文本和图像本身所属的类和马氏距离,用平均精确度指标和召回率指标确定检索精度。本发明专利技术通过W‑CCA算法找到文本和图像的特征数据集的公共最大特征子空间,并将文本和图像的训练集与测试集映射到该特征子空间,从而将文本和图像的特征集的数据统一到同一子空间,解决了维度灾难问题并最大化地保留了原有数据的最大特征。
【技术实现步骤摘要】
一种基于类马氏相关性度量的跨媒体检索方法
本专利技术涉及一种跨媒体检索方法,特别涉及一种基于类马氏相关性度量的跨媒体检索方法。
技术介绍
跨媒体检索是近年来提出的一个新的概念,传统的检索方式基本都是单模态检索,即文本检索文本,图像检索图像,音频检索音频或视频检索视频,最典型的代表是百度、google、yahoo等商业大众信息检索引擎和酷狗、youtube等音乐和视频检索平台,它们的实现都是在文字标注的基础上实现的。因为市场的需求,跨媒体检索成为近年来的研究热点。跨媒体在多媒体的基础上利用各种媒体的形式和特征对相同或相关的信息用不同的媒体表达形式进行处理,由此达到存储、检索和交换等目的。在跨媒体信息环境下,用户提交一种媒体对象作为查询示例,检索系统可以返回不同种类的其它媒体对象,以满足客户的多种感官体验,如利用图像示例检索语义相关的音频或视频片段。跨媒体间的相关性是指同一事物的不同模态的媒体在底层特征上存在潜在相关性,通过对这些数据用特定的数据方法关联,可得到它们之间相关性的度量,最终的检索结果根据相关性高低排序。由于跨媒体检索涉及到不同媒体的底层特征数据的提取和不同模态间的数据关联,所以存在以下技术难题:1)不同数据集特征提取维度的选取是一个棘手的问题;2)不同模态的媒体特征提取之后的维度不同,可通过统一到同一子空间,来解决“维度灾难”;3)由于跨媒体检索数据量大,传统的欧式距离相关性度量方法算法复杂度高,检索速度慢。
技术实现思路
为了解决上述技术难题,本专利技术提出一种时间复杂度低、能够解决维度灾难问题的基于类马氏相关性度量的跨媒体检索方法。本专利技术解决上述难题的技术方案是:一种基于类马氏相关性度量的跨媒体检索方法,包括以下步骤:步骤一:输入文本、图像数据库;步骤二:将文本、图像数据库中的文本和图像分别存入不同文档,并把文本和图像都分为训练集和测试集;步骤三:对文本和图像各自的训练集和测试集提取特征,得到文本和图像各自的训练特征集和测试特征集;步骤四:把文本和图像的特征集的数据统一到同一子空间;步骤五:应用类马氏距离公式计算统一到同一子空间后文本和图像测试集之间的相关性;步骤六:根据文本和图像本身所属的类和步骤五所得的马氏距离,用平均精确度指标和召回率指标确定检索精度。上述基于类马氏相关性度量的跨媒体检索方法,所述步骤二中,文本、图像数据库中文本、图像对的数量为P,文本和图像的训练集的样本量均为n,文本和图像的测试集的样本量均为m,步骤二具体步骤为:文本数据集作为一个子目录存储于文本图像数据库文件下,且文本数据集文档目录下包含训练集和测试集两个子目录,文本训练集样本量占整个文本数据集样本量的75%,文本测试集样本量占文本数据集样本量的25%;图像数据集作为一个子目录存储于文本图像数据库文件下,且图像数据集文档目录下包含训练集和测试集两个子目录,图像训练集样本量占整个图像数据集样本量的75%,图像测试集样本量占图像数据集样本量的25%。上述基于类马氏相关性度量的跨媒体检索方法,所述步骤三具体步骤为:对文本的训练集和测试集用LDA算法提取K个特征,记训练特征集为X,其中X=[x1,x2,…,xn];测试特征集为Xte,其中Xte=[u1,u2,…,um],xi、uj都是K维数据,一个特征代表一维,其中i=1,2,3,…,n、j=1,2,3,…,m;对图像的训练集和测试集用SIFT算法提取L个特征,记训练特征集为Y,其中Y=[y1,y2,…,yn];测试特征集为Yte,其中Yte=[h1,h2,…,hm],yi、hj均为L维数据,其中i=1,2,3,…,n、j=1,2,3,…,m。上述基于类马氏相关性度量的跨媒体检索方法,所述步骤四中,用W-CCA算法找到文本和图像的特征数据集的公共最大特征子空间,并将文本和图像的训练集和测试集映射到该特征子空间,记这个公共最大特征子空间为w维,映射后的数据xi、uj、yi、hj的维度映射后均为w维数据,步骤四具体步骤为:4-1)对矩阵X和矩阵Y做QR分解,X是n×K的矩阵,Y是n×L的矩阵,X分解成Q1和R1两个矩阵,Y分解成Q2和R2两个矩阵,其中分解后的矩阵形式为4-2)用数值方法分别求出Q1和Q2的秩Rank1和Rank2,取Rank1和Rank2的较小值w=min{Rank1,Rank2}作为公共最大子空间的维度;4-3)把测试集映射公共最大子空间,对做奇异值分解,分解后得到S,V,D三个矩阵,这三个矩阵分别表示为V是一个K×L对角矩阵,这里假设K<L,前K行的对角线元素不为零,其余元素都是零,非零元素对应的特征值,4-4)取出S和D矩阵的前w列得到S′和D′,将R1和R2做降维运算得到A和B,即此时A,B的矩阵形式为4-5)将图像和文本的测试特征集映射到公共最大子空间,将文本和图像的测试特征集与降维后的文本和图像的训练特征集的转置AT和BT分别做乘法运算得到X′te和Y′te,即X′te=Xte×AT,Y′te=Yte×BT,此时X′te和Y′te表示为上述基于类马氏相关性度量的跨媒体检索方法,所述步骤五的具体步骤为5-1)计算X′te和Y′te的均值mX和mY,即5-2)计算X′te和Y′te的标准差sX和sY,即5-3)用标准差估计协方差Σ,即5-4)应用类马氏距离公式计算文本特征测试集和图像特征测试集的相关性,计算公式为D2(X′te,Y′te)=(X′te-Y′te)T∑-1(X′te-Y′te),计算出的值代表文本测试集和图像测试集的距离,其中∑-1是Xte和Yte的协方差矩阵的逆;5-5)用升序排序算法对距离进行排序,距离越近相关性越高。本专利技术的有益效果在于:本专利技术通过W-CCA算法找到文本和图像的特征数据集的公共最大特征子空间,并将文本和图像的训练集和测试集映射到该特征子空间,从而将文本和图像的特征集的数据统一到同一子空间,解决了“维度灾难问题”并最大化地保留了原有数据的最大特征,并且本专利技术用类马氏距离来度量媒体间的相关性,避免了传统的欧式距离对每一个样本都要循环计算问题,大大降低了算法的时间复杂度。附图说明图1为本专利技术的流程图。具体实施方式为了更清楚地说明本专利技术,在Wikipediadataset数据集为数据源的基础上进行检索,对本专利技术的思想做更深入和具体的阐述;Wikipediadataset数据集含文本和图像两种媒体,数据集由人文、历史、地理和艺术等10个类别组成,文本是一些关于这些类别内容的一些新闻报道,图像是与内容相关的图片,Wikipediadataset数据集一共含有2866个样本。结合附图,本专利技术具体步骤如下:步骤一:输入Wikipediadataset数据库,数据库中含有2866对文本和图像。步骤二:将文本和图像数据库中的文本和图像分别存入Wikipediadataset数据集下面的Wikipediadataset图片数据集文件夹和Wikipediadataset文本数据集文件夹,并把Wikipediadataset图片数据集文件夹和Wikipediadataset文本数据集文件夹都分为训练集和测试集,其中训练集2173个样本,测试集693个样本,具体步骤如下:Wikipediadataset文本数据集作为一个子目录存于本文档来自技高网...
【技术保护点】
一种基于类马氏相关性度量的跨媒体检索方法,包括以下步骤:步骤一:输入文本、图像数据库;步骤二:将文本、图像数据库中的文本和图像分别存入不同文档,并把文本和图像都分为训练集和测试集;步骤三:对文本和图像各自的训练集和测试集提取特征,得到文本和图像各自的训练特征集和测试特征集;步骤四:把文本和图像的特征集的数据统一到同一子空间;步骤五:应用类马氏距离公式计算统一到同一子空间后文本和图像测试集之间的相关性;步骤六:根据文本和图像本身所属的类和步骤五所得的马氏距离,用平均精确度指标和召回率指标确定检索精度。
【技术特征摘要】
1.一种基于类马氏相关性度量的跨媒体检索方法,包括以下步骤:步骤一:输入文本、图像数据库;步骤二:将文本、图像数据库中的文本和图像分别存入不同文档,并把文本和图像都分为训练集和测试集;步骤三:对文本和图像各自的训练集和测试集提取特征,得到文本和图像各自的训练特征集和测试特征集;步骤四:把文本和图像的特征集的数据统一到同一子空间;步骤五:应用类马氏距离公式计算统一到同一子空间后文本和图像测试集之间的相关性;步骤六:根据文本和图像本身所属的类和步骤五所得的马氏距离,用平均精确度指标和召回率指标确定检索精度。2.根据权利要求1所述的基于类马氏相关性度量的跨媒体检索方法,其特征在于:所述步骤二中,文本、图像数据库中文本、图像对的数量为P,文本和图像的训练集的样本量均为n,文本和图像的测试集的样本量均为m,步骤二具体步骤为:文本数据集作为一个子目录存储于文本图像数据库文件下,且文本数据集文档目录下包含训练集和测试集两个子目录,文本训练集样本量占整个文本数据集样本量的75%,文本测试集样本量占文本数据集样本量的25%;图像数据集作为一个子目录存储于文本图像数据库文件下,且图像数据集文档目录下包含训练集和测试集两个子目录,图像训练集样本量占整个图像数据集样本量的75%,图像测试集样本量占图像数据集样本量的25%。3.根据权利要求2所述的基于类马氏相关性度量的跨媒体检索方法,其特征在于:所述步骤三具体步骤为:对文本的训练集和测试集用LDA算法提取K个特征,记训练特征集为X,其中X=[x1,x2,…,xn];测试特征集为Xte,其中Xte=[u1,u2,…,um],xi、uj都是K维数据,一个特征代表一维,其中i=1,2,3,…,n、j=1,2,3,…,m;对图像的训练集和测试集用SIFT算法提取L个特征,记训练特征集为Y,其中Y=[y1,y2,…,yn];测试特征集为Yte,其中Yte=[h1,h2,…,hm],yi、hj均为L维数据,其中i=1,2,3,…,n、j=1,2,3,…,m。4.根据权利要求3...
【专利技术属性】
技术研发人员:裴廷睿,吴海滨,赵津锋,曹江莲,田淑娟,
申请(专利权)人:湘潭大学,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。