用于对文本进行分类的方法技术

技术编号:10923452 阅读:92 留言:0更新日期:2015-01-18 23:30
通过根据文本确定文本特征并将文本特征变换为主题特征来对该文本进行分类。使用判别主题模型针对每一个主题特征来确定分数。该模型包括对主题特征进行操作的分类器,其中,通过变换根据文本特征来确定主题特征,并且变换被优化以最大化相对于不正确的类的分数的正确的类的分数。接着,选择针对文本具有最高分数的类标签。在按层次结构组织类的情况下,判别主题模型适用于根据前面的级别调节的每一个级别的类,并且跨级别组合分数以评估最高得分的类标签。

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】通过根据文本确定文本特征并将文本特征变换为主题特征来对该文本进行分类。使用判别主题模型针对每一个主题特征来确定分数。该模型包括对主题特征进行操作的分类器,其中,通过变换根据文本特征来确定主题特征,并且变换被优化以最大化相对于不正确的类的分数的正确的类的分数。接着,选择针对文本具有最高分数的类标签。在按层次结构组织类的情况下,判别主题模型适用于根据前面的级别调节的每一个级别的类,并且跨级别组合分数以评估最高得分的类标签。【专利说明】
本专利技术总体上涉及一种,并且更具体地,涉及针对大 量的类别对文本进行分类。
技术介绍
文本分类对于在诸如用于命令和控制的用户接口这样的自然语言处理中的许多 任务来说是一个重要的问题。在这样的方法中,从文本的许多类得到的训练数据被用于优 化由用于估计针对该文本的最可能的类的方法所使用的参数。 用于文本分类的多项逻辑斯蒂回归(MLR)分类器。 文本分类根据输入文本X来估计类y,其中y是类的标签。该文本能够从语音信号 得到。 在现有技术的多项逻辑斯蒂回归中,使用以下的特征函数来对关于输入文本的信 息进行编码: 【权利要求】1. 一种,该方法包括以下步骤: 根据所述文本来确定文本特征; 将所述文本特征变换为主题特征; 根据所述主题特征来确定分数,其中,所述确定步骤使用下述模型,其中,所述模型是 包括对所述主题特征进行操作的分类器的判别主题模型,并且所述变换步骤被优化以最大 化相对于不正确的类的分数的正确的类的分数;以及 选择针对所述文本具有最高分数的一组类标签,其中,在处理器中执行所述步骤。2. 根据权利要求1所述的方法,其中,所述主题特征是所述文本特征的线性变换。3. 根据权利要求1所述的方法,其中,所述模型的参数使用包括LI、L2的正则项和混 合范数正则项来正则化。4. 根据权利要求1所述的方法,其中,所述文本是从来自对语音信号进行操作的自动 语音识别系统的一个或更多个假设得到的。5. 根据权利要求1所述的方法,其中,所述文本特征是f("k(X,y),所述变换是根据下 式进行的: gi,k(x. y) = hi(f1;k(x, y),..., fJ;k(x, y)), 其中,j是针对特征的类型的索引,k是与特征相关联的类的索引,x是文本,y是类标 签的假设,并且h (.)是对文本特征进行变换的函数,并且1是主题特征的索引。6. 根据权利要求1所述的方法,其中,所述主题特征与所述文本的语义方面有关。7. 根据权利要求5所述的方法,其中,线性变换 hi (fi, k (X,y),· · ·,fj, k (X,y)) - Σ jAi' jfj' k (x,y) 由特征变换矩阵A来参数化以产生所述主题特征 /8. 根据权利要求5所述的方法,其中,所述判别主题模型为 f . f f] max ^ I〇g(pA"-, (J I -^))~ ?Σ I Γ ~βΣ 1 Σ I JU ? f U L Lk Lk l \ j J j 其中,α,β,Y是权重,并且Λ是分类优化参数。9. 根据权利要求8所述的方法,其中,所述权重通过交叉验证来确定。10. 根据权利要求1所述的方法,其中,根据由文本使用的自然语言的语义进行所述分 类。11. 根据权利要求1所述的方法,其中,按层次结构组织所述类,其中每一个类对应于 所述层次中的某一节点,其中,节点被分配给所述层次的不同的级别,其中,不同的分类参 数被用于所述层次的所述级别中的一个或更多个,其中,分类是通过下述方式来进行的:遍 历所述层次以评估每一个级别的按照前面的级别的类的假设调节的部分分数并且组合这 些级别中的一个或更多个的类的所述部分分数以确定联合分数。12. 根据权利要求11所述的方法,其中,所述层次被表示为树。13. 根据权利要求11所述的方法,其中,所述层次被表示为有向无环图。14. 根据权利要求11所述的方法,其中,以宽度优先方式来遍历所述层次。15. 根据权利要求11所述的方法,其中,使用一个或更多个级别的分数来根据其它的 级别的考虑消除假设。16. 根据权利要求15所述的方法,其中,在给定级别,根据进一步的考虑消除除了最高 得分假设以外的所有假设。17. 根据权利要求15所述的方法,其中,在给定级别,对于某个正整数n,根据进一步的 考虑消除除了 η个最高得分假设以外的所有假设。18. 根据权利要求11所述的方法,其中,通过对沿着从最高的级别到另一个级别的一 个类的路径的部分分数求和来确定沿着该路径的一系列类的联合分数。19. 根据权利要求18所述的方法,其中,通过使通向所述类的所有路径的联合分数边 缘化来确定特定级别下的所述类的分数。【文档编号】G06F17/30GK104285224SQ201380024544 【公开日】2015年1月14日 申请日期:2013年5月15日 优先权日:2012年5月24日【专利技术者】J·R·赫尔歇, J·勒鲁克斯 申请人:三菱电机株式会社本文档来自技高网...

【技术保护点】
一种用于对文本进行分类的方法,该方法包括以下步骤:根据所述文本来确定文本特征;将所述文本特征变换为主题特征;根据所述主题特征来确定分数,其中,所述确定步骤使用下述模型,其中,所述模型是包括对所述主题特征进行操作的分类器的判别主题模型,并且所述变换步骤被优化以最大化相对于不正确的类的分数的正确的类的分数;以及选择针对所述文本具有最高分数的一组类标签,其中,在处理器中执行所述步骤。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:J·R·赫尔歇J·勒鲁克斯
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1