领域自适应的观点数据分类方法及装置制造方法及图纸

技术编号:14777380 阅读:132 留言:0更新日期:2017-03-09 13:36
本发明专利技术公开一种领域自适应的观点数据分类方法,属于互联网技术领域。包括:确定源领域检索词矩阵及目标领域检索词矩阵;确定源领域目标函数及目标领域目标函数;根据源领域目标函数及目标领域目标函数确定总目标函数;分别确定总目标函数中各个参数的目标值;根据各个参数的目标值及源领域中的已标注观点数据,训练指定分类模型,通过训练得到的指定分类模型对目标领域的观点数据进行分类。由于总目标函数与源领域特定话题矩阵、目标领域特定话题矩阵及表示源领域与目标领域间的共享话题的枢纽矩阵有关,从而提供一种借助共享话题实现领域自适应的观点数据分类方法。由于共享话题能够减小源领域与目标领域间的差异,从而可确保分类结果的准确性。

【技术实现步骤摘要】

本专利技术涉及互联网
,特别涉及一种领域自适应的观点数据分类方法及装置
技术介绍
随着互联网技术的发展,用户在互联网上分享的观点数据越来越多。例如,用户在购物网站发表的用户评论、用户针对某一产品的反馈意见等均为观点数据。其中,用户分享的观点数据会涉及多个领域,如服装领域、图书领域等。为了便于研究或统计各个领域的观点数据,通常需要对各个领域的观点数据进行分类。通常,在对某一个领域的观点数据进行分类时,需要先标注该领域中的观点数据,并基于标注的观点数据训练分类器来实现。然而,由于互联网中的观点数据所涉及的领域很多,对每个领域的观点数据均进行标注会浪费很多资源,而领域自适应的观点数据分类方法,可以实现在对某些领域的观点数据不进行标注的情况下,实现对这些领域的观点数据进行分类。以采用SFA(SpectralFeatureAlignment,谱的特征队列)算法实现领域自适应的观点数据分类为例,相关技术在实现领域自适应的观点数据分类时,首先任意选定一个源领域和目标领域,并确定源领域和目标领域的领域特定词和领域独立词。其中,领域特定词为一个领域所特有的词,领域独立词为连接源领域和目标领域之间的桥梁。然后,在领域特定词和领域独立词之间构建一个双向图,该双向图用来表示领域特定词和领域独立词之间的共现关系,进而采用SFA算法将双向图中联系较多的领域特定词和领域独立词分到一个簇中。由于这个簇能够减小源领域和目标领域的领域特定词之间的差距,因此,可根据这个簇训练一个分类器,进而通过训练得到的分类器实现领域自适应的观点数据分类。在实现本专利技术的过程中,专利技术人发现相关技术至少存在以下问题:相关技术在实现领域自适应的观点数据分类时,由于选定的源领域和目标领域所涉及的所有词并不一定能够明确被划分为领域特定词或领域独立词,导致通过相关技术提出的领域自适应的观点数据对观点数据进行分类的分类结果并不精准。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种领域自适应的观点数据分类方法及装置。所述技术方案如下:第一方面,提供了一种领域自适应的观点数据分类方法,所述方法包括:根据源领域的文档与检索词之间的关系,确定源领域检索词矩阵;根据目标领域的文档与检索词之间的关系,确定目标领域检索词矩阵;根据所述源领域检索词矩阵、源领域特定话题矩阵、所述源领域特定话题矩阵的系数矩阵及所述源领域与所述目标领域之间的枢纽矩阵,确定源领域目标函数;根据所述目标领域检索词矩阵、目标领域特定话题矩阵、所述目标领域特定话题矩阵的系数矩阵及所述枢纽矩阵,确定目标领域目标函数;根据所述源领域目标函数及所述目标领域目标函数,确定总目标函数;分别确定所述总目标函数中各个参数的目标值;根据所述各个参数的目标值及所述源领域中的已标注观点数据,训练指定分类模型,通过训练得到的指定分类模型对所述目标领域的观点数据进行分类。第二方面,提供了一种领域自适应的观点数据分类装置,所述装置包括:第一确定模块,用于根据源领域的文档与检索词之间的关系,确定源领域检索词矩阵;第二确定模块,用于根据目标领域的文档与检索词之间的关系,确定目标领域检索词矩阵;第三确定模块,用于根据所述源领域检索词矩阵、源领域特定话题矩阵、所述源领域特定话题矩阵的系数矩阵及所述源领域与所述目标领域之间的枢纽矩阵,确定源领域目标函数;第四确定模块,用于根据所述目标领域检索词矩阵、目标领域特定话题矩阵、所述目标领域特定话题矩阵的系数矩阵及所述枢纽矩阵,确定目标领域目标函数;第五确定模块,用于根据所述源领域目标函数及所述目标领域目标函数,确定总目标函数;第六确定模块,用于分别确定所述总目标函数中各个参数的目标值;训练模块,用于根据所述各个参数的目标值及所述源领域中的已标注观点数据,训练指定分类模型;分类模块,用于通过训练得到的指定分类模型对所述目标领域的观点数据进行分类。本专利技术实施例提供的技术方案带来的有益效果是:由于确定的总目标函数与源领域特定话题矩阵、目标领域特定话题矩阵及表示源领域与目标领域之间的共享话题的枢纽矩阵有关,从而提供一种借助源领域与目标领域之间的共享话题实现领域自适应的观点数据分类方法。由于共享话题能够减小源领域与目标领域之间的差异,使得通过该种领域自适应的观点数据分类方法进行分类时,可以确保分类结果的准确性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例提供的一种领域自适应的观点数据分类方法的流程图;图2是本专利技术另一实施例提供的一种领域自适应的观点数据分类方法的流程图;图3是本专利技术另一实施例提供的一种收敛曲线;图4是本专利技术另一实施例提供的一种针对每对领域的差异进行实验得到的实验结果图;图5是本专利技术另一实施例提供的一种领域自适应的观点数据分类装置的结构示意图;图6是本专利技术另一实施例提供的一种服务器的结构示意图;图7是本专利技术另一实施例提供的一种终端的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。随着互联网技术的迅速发展,互联网上分享的能够标识用户感情的观点数据越来越多。例如,当用户网购成功后,会在评论中发表对该次购买的商品的评价意见;当某一个用户发表博客后,其他用户对该用户发表的内容进行的评论等。其中,观点数据可能为贬义的,也可能为褒义的;可能为主观的,也可能为客观的等。也就是说,观点数据具有一定的情感极性,观点数据的情感极性包括正向和负向等,研究观点数据的情感极性的过程即为对观点数据进行分类的过程。通过对观点数据的情感极性进行研究,对于指导产品或服务等生产实践具有重要的意义,因此,经常需要对观点数据进行分类。进一步地,由于互联网上包括的观点数据涉及多个不同的领域。为了便于对多个领域的观点数据进行分类,通常会采用领域自适应的分类方法。通过领域自适应的分类方法,可以实现在不对某个或某些领域的观点数据进行标注的情况下,实现对这个或者这些领域的观点数据进行分类。本专利技术实施例即提供的一种领域自适应的观点数据分类方法。在本专利技术实施例中,源领域中包括一些已标注极性的已标注观点数据,而目标领域中可能未包括已标注观点数据,通过本专利技术实施例提供的方法,可以确定目标领域中任一观点数据的情感极性,从而实现对目标领域的任一观点数据进行分类,具体领域自适应的观点数据分类方法详见下述各个实施例:图1是根据一示例性实施例提供的一种领域自适应的观点数据分类方法的流程图。参见图1,本专利技术实施例提供的方法流程包括:101:根据源领域的文档与检索词之间的关系,确定源领域检索词矩阵。102:根据目标领域的文档与检索词之间的关系,确定目标领域检索词矩阵。103:根据源领域检索词矩阵、源领域特定话题矩阵、源领域特定话题矩阵的系数矩阵及源领域与目标领域之间的枢纽矩阵,确定源领域目标函数。104:根据目标领域检索词矩阵、目标领域特定话题矩阵、目标领域特定话题矩阵的系数矩阵及枢纽矩阵,确定目标领域目标函数。本文档来自技高网
...
领域自适应的观点数据分类方法及装置

【技术保护点】
一种领域自适应的观点数据分类方法,其特征在于,所述方法包括:根据源领域的文档与检索词之间的关系,确定源领域检索词矩阵;根据目标领域的文档与检索词之间的关系,确定目标领域检索词矩阵;根据所述源领域检索词矩阵、源领域特定话题矩阵、所述源领域特定话题矩阵的系数矩阵及所述源领域与所述目标领域之间的枢纽矩阵,确定源领域目标函数;根据所述目标领域检索词矩阵、目标领域特定话题矩阵、所述目标领域特定话题矩阵的系数矩阵及所述枢纽矩阵,确定目标领域目标函数;根据所述源领域目标函数及所述目标领域目标函数,确定总目标函数;分别确定所述总目标函数中各个参数的目标值;根据所述各个参数的目标值及所述源领域中的已标注观点数据,训练指定分类模型,通过训练得到的指定分类模型对所述目标领域的观点数据进行分类。

【技术特征摘要】
1.一种领域自适应的观点数据分类方法,其特征在于,所述方法包括:根据源领域的文档与检索词之间的关系,确定源领域检索词矩阵;根据目标领域的文档与检索词之间的关系,确定目标领域检索词矩阵;根据所述源领域检索词矩阵、源领域特定话题矩阵、所述源领域特定话题矩阵的系数矩阵及所述源领域与所述目标领域之间的枢纽矩阵,确定源领域目标函数;根据所述目标领域检索词矩阵、目标领域特定话题矩阵、所述目标领域特定话题矩阵的系数矩阵及所述枢纽矩阵,确定目标领域目标函数;根据所述源领域目标函数及所述目标领域目标函数,确定总目标函数;分别确定所述总目标函数中各个参数的目标值;根据所述各个参数的目标值及所述源领域中的已标注观点数据,训练指定分类模型,通过训练得到的指定分类模型对所述目标领域的观点数据进行分类。2.根据权利要求1所述的方法,其特征在于,所述根据所述源领域检索词矩阵、源领域特定话题矩阵、所述源领域特定话题矩阵的系数矩阵及所述源领域与所述目标领域之间的枢纽矩阵,确定源领域目标函数,包括:根据所述源领域检索词矩阵、源领域特定话题矩阵、所述源领域特定话题矩阵的系数矩阵及所述源领域与所述目标领域之间的枢纽矩阵,通过以下公式确定源领域目标函数:Os=||Xs-[U0,Us]Vs||F2]]>式中,Os为源领域目标函数,Xs为源领域检索词矩阵,U0为所述枢纽矩阵,Us为源领域特定话题矩阵,Vs为源领域特定话题矩阵的系数矩阵,表示费罗贝尼乌斯范数;所述根据所述目标领域检索词矩阵、目标领域特定话题矩阵、所述目标领
\t域特定话题矩阵的系数矩阵及所述枢纽矩阵,确定目标领域目标函数,包括:根据所述目标领域检索词矩阵、目标领域特定话题矩阵、所述目标领域特定话题矩阵的系数矩阵及所述枢纽矩阵,通过以下公式确定目标领域目标函数:Ot=||Xt-[U0,Ut]Vt||F2]]>式中,Ot为目标领域目标函数,Xt为目标领域检索词矩阵,U0为所述枢纽矩阵,Ut为目标领域特定话题矩阵,Vt为目标领域特定话题矩阵的系数矩阵。3.根据权利要求2所述的方法,其特征在于,所述根据所述源领域目标函数及所述目标领域目标函数,确定总目标函数,包括:根据所述源领域目标函数及所述目标领域目标函数,通过如下公式确定总目标函数:Φ=λs||Xs-[U0,Us]Vs||F2+λt||Xt-[U0,Ut]Vt||F2+D(U0,Us,Ut,Vs,Vt)]]>D(U0,Us,Ut,Vs,Vt)=α||U0TUs||F2+β||U0TUt||F2+γ||UsTUt||F2+Tr(AU0U0T)+Tr(AUsUST)+Tr(AUtUtT)+Tr(AVsVsT)+Tr(AVtVtT)]]>λs=||Xs||F-2]]>λt=||Xt||F-2]]>式中,Φ为总目标函数,D(U0,Us,Ut,Vs,Vt)为一个正则项,α、β、γ为各个正则化参数,Tr()为矩阵的迹,为通过拉格朗日数乘法在限制U0(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Us(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Ut(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Vs(i,j)≥0条件下得到的拉格朗日乘子矩阵,为通过拉格朗日数乘法在限制Vt(i,j)≥0条件下得到的拉格朗日乘子矩阵。4.根据权利要求1或3所述的方法,其特征在于,所述分别确定所述总目
\t标函数中各个参数的目标值,包括:分别为所述各个参数随机分配一个非负的值作为所述各个参数的初始值;根据所述各个参数的初始值,计算所述各个参数的收敛值,将所述各个参数的收敛值作为所述各个参数的目标值。5.根据权利要求4所述的方法,其特征在于,所述总目标函数中的各个参数包括U0、Us、Ut、Vs和Vt;所述根据所述各个参数的初始值,计算所述各个参数的收敛值,包括:根据U0的初始值,按照U0m=U0m-1[λsXsHsT+λtXtHtT][λsXs(r)HsT+λtXt(r)Ht+(αUsUsT+βUtUtT)U0]]]>对U0进行迭代计算,直至得到U0的收敛值式中,上一次迭代得到的U0的值,为根据迭代得到的U0的值,Hs为枢纽矩阵对源领域的系数矩阵,Ht为枢纽矩阵对目标领域的系数矩阵,r表示迭代次数;根据Us的初始值,按照Usm=Usm-1[λsXsLsT][λsXs(r)LsT+(αU0U0T+γUtUtT)Us]]]>对Us进行迭代计算,直至得到Us的收敛值式中,上一次迭代得到的Us的值,为根据迭代得到的Us的值,Ls为源领域特定话题矩阵的系数矩阵,Lt为目标领域特定话题矩阵的系数矩阵;根据Ut的初始值,按照Utm=Utm-1[λtXtLtT][λtXt(r)LtT+(βU0U0T+γUsUsT)Ut]]]>对Ut进行迭代计算,直至得到Ut的收敛值式中,上一次迭代得到的Ut的值,为根据迭代得到的Ut的值;根据Vs的初始值,按照对Vs进行迭代计算,直至得到Vs的收敛值式中,为上一次迭代得到的Vs的值,为根据迭代得到的Vs
\t的值;根据Vt的初始值,...

【专利技术属性】
技术研发人员:周光有张小鹏肖磊刘婷婷王巨宏
申请(专利权)人:华中师范大学腾讯科技深圳有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1