【技术实现步骤摘要】
本专利技术涉及互联网
,特别涉及一种领域自适应的观点数据分类方法及装置。
技术介绍
随着互联网技术的发展,用户在互联网上分享的观点数据越来越多。例如,用户在购物网站发表的用户评论、用户针对某一产品的反馈意见等均为观点数据。其中,用户分享的观点数据会涉及多个领域,如服装领域、图书领域等。为了便于研究或统计各个领域的观点数据,通常需要对各个领域的观点数据进行分类。通常,在对某一个领域的观点数据进行分类时,需要先标注该领域中的观点数据,并基于标注的观点数据训练分类器来实现。然而,由于互联网中的观点数据所涉及的领域很多,对每个领域的观点数据均进行标注会浪费很多资源,而领域自适应的观点数据分类方法,可以实现在对某些领域的观点数据不进行标注的情况下,实现对这些领域的观点数据进行分类。以采用SFA(SpectralFeatureAlignment,谱的特征队列)算法实现领域自适应的观点数据分类为例,相关技术在实现领域自适应的观点数据分类时,首先任意选定一个源领域和目标领域,并确定源领域和目标领域的领域特定词和领域独立词。其中,领域特定词为一个领域所特有的词,领域独立词为连接源领域和目标领域之间的桥梁。然后,在领域特定词和领域独立词之间构建一个双向图,该双向图用来表示领域特定词和领域独立词之间的共现关系,进而采用SFA算法将双向图中联系较多的领域特定词和领域独立词分到一个簇中。由于这个簇能够减小源领域和目标领域的领域特定词之间的差距,因此,可根据这个簇训练一个分类器,进而通过训练得到的分类器实现领域自适应的观点数据分类。在实现本专利技术的过程中,专 ...
【技术保护点】
一种领域自适应的观点数据分类方法,其特征在于,所述方法包括:根据源领域的文档与检索词之间的关系,确定源领域检索词矩阵;根据目标领域的文档与检索词之间的关系,确定目标领域检索词矩阵;根据所述源领域检索词矩阵、源领域特定话题矩阵、所述源领域特定话题矩阵的系数矩阵及所述源领域与所述目标领域之间的枢纽矩阵,确定源领域目标函数;根据所述目标领域检索词矩阵、目标领域特定话题矩阵、所述目标领域特定话题矩阵的系数矩阵及所述枢纽矩阵,确定目标领域目标函数;根据所述源领域目标函数及所述目标领域目标函数,确定总目标函数;分别确定所述总目标函数中各个参数的目标值;根据所述各个参数的目标值及所述源领域中的已标注观点数据,训练指定分类模型,通过训练得到的指定分类模型对所述目标领域的观点数据进行分类。
【技术特征摘要】
1.一种领域自适应的观点数据分类方法,其特征在于,所述方法包括:根据源领域的文档与检索词之间的关系,确定源领域检索词矩阵;根据目标领域的文档与检索词之间的关系,确定目标领域检索词矩阵;根据所述源领域检索词矩阵、源领域特定话题矩阵、所述源领域特定话题矩阵的系数矩阵及所述源领域与所述目标领域之间的枢纽矩阵,确定源领域目标函数;根据所述目标领域检索词矩阵、目标领域特定话题矩阵、所述目标领域特定话题矩阵的系数矩阵及所述枢纽矩阵,确定目标领域目标函数;根据所述源领域目标函数及所述目标领域目标函数,确定总目标函数;分别确定所述总目标函数中各个参数的目标值;根据所述各个参数的目标值及所述源领域中的已标注观点数据,训练指定分类模型,通过训练得到的指定分类模型对所述目标领域的观点数据进行分类。2.根据权利要求1所述的方法,其特征在于,所述根据所述源领域检索词矩阵、源领域特定话题矩阵、所述源领域特定话题矩阵的系数矩阵及所述源领域与所述目标领域之间的枢纽矩阵,确定源领域目标函数,包括:根据所述源领域检索词矩阵、源领域特定话题矩阵、所述源领域特定话题矩阵的系数矩阵及所述源领域与所述目标领域之间的枢纽矩阵,通过以下公式确定源领域目标函数:Os=||Xs-[U0,Us]Vs||F2]]>式中,Os为源领域目标函数,Xs为源领域检索词矩阵,U0为所述枢纽矩阵,Us为源领域特定话题矩阵,Vs为源领域特定话题矩阵的系数矩阵,表示费罗贝尼乌斯范数;所述根据所述目标领域检索词矩阵、目标领域特定话题矩阵、所述目标领
\t域特定话题矩阵的系数矩阵及所述枢纽矩阵,确定目标领域目标函数,包括:根据所述目标领域检索词矩阵、目标领域特定话题矩阵、所述目标领域特定话题矩阵的系数矩阵及所述枢纽矩阵,通过以下公式确定目标领域目标函数:Ot=||Xt-[U0,Ut]Vt||F2]]>式中,Ot为目标领域目标函数,Xt为目标领域检索词矩阵,U0为所述枢纽矩阵,Ut为目标领域特定话题矩阵,Vt为目标领域特定话题矩阵的系数矩阵。3.根据权利要求2所述的方法,其特征在于,所述根据所述源领域目标函数及所述目标领域目标函数,确定总目标函数,包括:根据所述源领域目标函数及所述目标领域目标函数,通过如下公式确定总目标函数:Φ=λs||Xs-[U0,Us]Vs||F2+λt||Xt-[U0,Ut]Vt||F2+D(U0,Us,Ut,Vs,Vt)]]>D(U0,Us,Ut,Vs,Vt)=α||U0TUs||F2+β||U0TUt||F2+γ||UsTUt||F2+Tr(AU0U0T)+Tr(AUsUST)+Tr(AUtUtT)+Tr(AVsVsT)+Tr(AVtVtT)]]>λs=||Xs||F-2]]>λt=||Xt||F-2]]>式中,Φ为总目标函数,D(U0,Us,Ut,Vs,Vt)为一个正则项,α、β、γ为各个正则化参数,Tr()为矩阵的迹,为通过拉格朗日数乘法在限制U0(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Us(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Ut(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Vs(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Vt(i,j)≥0条件下得到的拉格朗日乘子矩阵。4.根据权利要求1或3所述的方法,其特征在于,所述分别确定所述总目
\t标函数中各个参数的目标值,包括:分别为所述各个参数随机分配一个非负的值作为所述各个参数的初始值;根据所述各个参数的初始值,计算所述各个参数的收敛值,将所述各个参数的收敛值作为所述各个参数的目标值。5.根据权利要求4所述的方法,其特征在于,所述总目标函数中的各个参数包括U0、Us、Ut、Vs和Vt;所述根据所述各个参数的初始值,计算所述各个参数的收敛值,包括:根据U0的初始值,按照U0m=U0m-1[λsXsHsT+λtXtHtT][λsXs(r)HsT+λtXt(r)Ht+(αUsUsT+βUtUtT)U0]]]>对U0进行迭代计算,直至得到U0的收敛值式中,上一次迭代得到的U0的值,为根据迭代得到的U0的值,Hs为枢纽矩阵对源领域的系数矩阵,Ht为枢纽矩阵对目标领域的系数矩阵,r表示迭代次数;根据Us的初始值,按照Usm=Usm-1[λsXsLsT][λsXs(r)LsT+(αU0U0T+γUtUtT)Us]]]>对Us进行迭代计算,直至得到Us的收敛值式中,上一次迭代得到的Us的值,为根据迭代得到的Us的值,Ls为源领域特定话题矩阵的系数矩阵,Lt为目标领域特定话题矩阵的系数矩阵;根据Ut的初始值,按照Utm=Utm-1[λtXtLtT][λtXt(r)LtT+(βU0U0T+γUsUsT)Ut]]]>对Ut进行迭代计算,直至得到Ut的收敛值式中,上一次迭代得到的Ut的值,为根据迭代得到的Ut的值;根据Vs的初始值,按照对Vs进行迭代计算,直至得到Vs的收敛值式中,为上一次迭代得到的Vs的值,为根据迭代得到的Vs
\t的值;根据Vt的初始值,...
【专利技术属性】
技术研发人员:周光有,张小鹏,肖磊,刘婷婷,王巨宏,
申请(专利权)人:华中师范大学,腾讯科技深圳有限公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。