最优主题数获取方法及装置制造方法及图纸

技术编号:15616717 阅读:53 留言:0更新日期:2017-06-14 03:32
本发明专利技术实施例公开了一种最优主题数获取方法及装置,基于主题数对应的两两主题间的第一相似度、主题数对应的两两词语间的第二相似度以及主题数,计算主题数对应的用于衡量主题数的优劣的平衡相似度;将平衡相似度满足预设条件时的主题数确定为最优主题数。从而可以基于如下原则获取最优主题数:主题数尽可能多,以保证最大程度的语义覆盖,但是却不能过多;各个主题尽可能表达独立含义,尽量不存在语义交叉;相同含义的词语越少越好,以保证用最少的词语来表示尽可能多的语义。

【技术实现步骤摘要】
最优主题数计算方法及装置
本专利技术涉及机器学习
,更具体地说,涉及一种最优主题数计算方法及装置。
技术介绍
在自然语言处理过程中,文档对于计算机通常被当作是一个无限维度的向量。而这种无限维度的向量对于计算机本身又是不可被计算的,这时就需要对文本进行降维处理,让它以一定维度的数学向量储存在计算机中以便计算。主题模型(TopicModel)就是一种常见的文档降维方法。主题模型的实质是对文档中隐含主题的一种建模方法。具体的,主题模型就是通过已知的“词语-文档”矩阵进行训练,得到“词语-主题”矩阵和“主题-文档”矩阵的过程。其中,“词语-文档”矩阵表示每个文档中每个词语的词频(即出现的概率);“词语-主题”矩阵表示每个主题中每个词语出现的概率;“主题-文档”矩阵表示每个文档中每个主题出现的概率。上述训练过程,需要先获取若干个主题数,然后基于每一个主题数,通过“词语-文档”矩阵进行训练,得到每一个主题数对应的“词语-主题”矩阵和“主题-文档”矩阵,然后从上述若干个主题中选择一个最优的主题数,将该最优主题数对应的“词语-主题”矩阵和“主题-文档”矩阵作为最优结果输出。显然,主题数是主题模型的一个重要参数。如果最优主题数选择不当(主题数过少或过多)会导致主题模型的输出结果的质量较差。因此,如何选择最优主题数成为亟待解决的问题。
技术实现思路
本专利技术的目的是提供一种最优主题数计算方法及装置,以提高主题模型的输出结果的质量。为实现上述目的,本专利技术提供了如下技术方案:一种最优主题数计算方法,包括:获取主题模型中使用的若干个主题数;对应每一个所述主题数,获取所述主题数对应的,每个主题中每个词语出现的第一概率,以及每个文档中每个主题出现的第二概率;基于所述第一概率和所述第二概率,计算两两主题间的第一相似度,以及两两词语间的第二相似度;基于所述主题数对应的两两主题间的第一相似度、所述主题数对应的两两词语间的第二相似度以及所述主题数,计算所述主题数对应的平衡相似度,所述平衡相似度的大小用于衡量主题数的优劣;将平衡相似度满足预设条件时的主题数确定为最优主题数。通过上述过程可知,本专利技术实施例中,基于主题数对应的两两主题间的第一相似度、主题数对应的两两词语间的第二相似度以及主题数,计算主题数对应的用于衡量主题数的优劣的平衡相似度;将平衡相似度满足预设条件时的主题数确定为最优主题数。从而可以基于如下原则获取最优主题数:主题数尽可能多,以保证最大程度的语义覆盖,但是却不能过多;各个主题尽可能表达独立含义,尽量不存在语义交叉;相同含义的词语越少越好,以保证用最少的词语来表示尽可能多的语义。上述方法,优选的,所述基于所述主题数对应的两两主题间的第一相似度、所述主题数对应的两两词语间的第二相似度以及所述主题数,计算所述主题数对应的平衡相似度,包括:计算所述主题数对应的两两主题间的第一相似度的第一和值,以及所述主题数对应的两两词语间的第二相似度的第二和值;将所述第一和值和所述第二和值的乘积与所述主题数的平方值做商运算,得到所述主题数对应的平衡相似度。上述方法,优选的,所述将平衡相似度满足预设条件时的主题数确定为最优主题数,包括:将平衡相似度最小时的主题数确定为最优主题数。上述过程中,通过分母主题数的平方来确保主题数不会过大;通过对两两主题间的相似度求和,并且通过平衡相似度最小来使得主题数范围内的主题间语义叠加最小;通过对两两词语间的相似度求和,并且通过平衡相似度最小来使得当前主题数范围内的主题中所有词语语义叠加最小。上述方法,优选的,基于所述第一概率计算两两主题间的第一相似度,包括:获取与第一主题对应的第一向量,以及与第二主题对应的第二向量;所述第一向量中的元素为所述第一主题中各个词语出现的第一概率,所述第二向量中的元素为所述第二主题中各个词语出现的第一概率;基于所述第一向量和所述第二向量计算所述第一主题和所述第二主题间的第一相似度。上述方法,优选的,基于所述第一概率和所述第二概率计算两两词语间的第二相似度,包括:计算不同文档中同一主题出现的第二概率的第三和值;对应每一个主题,计算主题对应的所述第三和值与主题中第一词语出现的第一概率的第一乘积,将第一乘积结果与语料库中所述第一词语的词频做商运算,得到在所述第一词语出现的条件下,每一个主题的第三概率;计算主题对应的所述第三和值与主题中第二词语出现的第一概率的第二乘积,将第二乘积结果与语料库中所述第二词语的词频做商运算,得到在所述第二词语出现的条件下,每一个主题的第四概率;获取与所述第一词语对应的第三向量,以及与所述第二词语对应的第四向量;所述第三向量中的元素为在所述第一词语出现的条件下,各个主题的第三概率;所述第四向量中的元素为在所述第二词语出现的条件下,各个主题的第四概率;基于所述第三向量和所述第四向量计算所述第一词语和所述第二词语间的第二相似度。一种最优主题数计算装置,包括:第一获取模块,用于获取主题模型中使用的若干个主题数;第二获取模块,用于对应每一个所述主题数,获取所述主题数对应的,每个主题中每个词语出现的第一概率,以及每个文档中每个主题出现的第二概率;第一计算模块,用于基于所述第一概率和所述第二概率,计算两两主题间的第一相似度,以及两两词语间的第二相似度;第二计算模块,用于基于所述主题数对应的两两主题间的第一相似度、所述主题数对应的两两词语间的第二相似度以及所述主题数,计算所述主题数对应的平衡相似度,所述平衡相似度的大小用于衡量主题数的优劣;确定模块,用于将平衡相似度满足预设条件时的主题数确定为最优主题数。本专利技术实施例提供的最优主题数计算装置,基于主题数对应的两两主题间的第一相似度、主题数对应的两两词语间的第二相似度以及主题数,计算主题数对应的用于衡量主题数的优劣的平衡相似度;将平衡相似度满足预设条件时的主题数确定为最优主题数。从而可以基于如下原则获取最优主题数:主题数尽可能多,以保证最大程度的语义覆盖,但是却不能过多;各个主题尽可能表达独立含义,尽量不存在语义交叉;相同含义的词语越少越好,以保证用最少的词语来表示尽可能多的语义。上述装置,优选的,所述第二计算模块包括:第一计算单元,用于计算所述主题数对应的两两主题间的第一相似度的第一和值,以及所述主题数对应的两两词语间的第二相似度的第二和值;第二计算单元,用于将所述第一和值和所述第二和值的乘积与所述主题数的平方值做商运算,得到所述主题数对应的平衡相似度。上述装置,优选的,所述确定模块用于,将平衡相似度最小时的主题数确定为最优主题数。上述最优主题数计算装置,通过分母主题数的平方来确保主题数不会过大;通过对两两主题间的相似度求和,并且通过平衡相似度最小来使得主题数范围内的主题间语义叠加最小;通过对两两词语间的相似度求和,并且通过平衡相似度最小来使得当前主题数范围内的主题中所有词语语义叠加最小。上述装置,优选的,所述第一计算模块用于基于所述第一概率计算两两主题间的第一相似度,包括:第一获取单元,用于获取与第一主题对应的第一向量,以及与第二主题对应的第二向量;所述第一向量中的元素为所述第一主题中各个词语出现的第一概率,所述第二向量中的元素为所述第二主题中各个词语出现的第一概率;第三计算单元,用于基于所述第一向量和所述第二向量计算所述本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201611265195.html" title="最优主题数获取方法及装置原文来自X技术">最优主题数获取方法及装置</a>

【技术保护点】
一种最优主题数计算方法,其特征在于,包括:获取主题模型中使用的若干个主题数;对应每一个所述主题数,获取所述主题数对应的,每个主题中每个词语出现的第一概率,以及每个文档中每个主题出现的第二概率;基于所述第一概率和所述第二概率,计算两两主题间的第一相似度,以及两两词语间的第二相似度;基于所述主题数对应的两两主题间的第一相似度、所述主题数对应的两两词语间的第二相似度以及所述主题数,计算所述主题数对应的平衡相似度,所述平衡相似度的大小用于衡量主题数的优劣;将平衡相似度满足预设条件时的主题数确定为最优主题数。

【技术特征摘要】
1.一种最优主题数计算方法,其特征在于,包括:获取主题模型中使用的若干个主题数;对应每一个所述主题数,获取所述主题数对应的,每个主题中每个词语出现的第一概率,以及每个文档中每个主题出现的第二概率;基于所述第一概率和所述第二概率,计算两两主题间的第一相似度,以及两两词语间的第二相似度;基于所述主题数对应的两两主题间的第一相似度、所述主题数对应的两两词语间的第二相似度以及所述主题数,计算所述主题数对应的平衡相似度,所述平衡相似度的大小用于衡量主题数的优劣;将平衡相似度满足预设条件时的主题数确定为最优主题数。2.根据权利要求1所述的方法,其特征在于,所述基于所述主题数对应的两两主题间的第一相似度、所述主题数对应的两两词语间的第二相似度以及所述主题数,计算所述主题数对应的平衡相似度,包括:计算所述主题数对应的两两主题间的第一相似度的第一和值,以及所述主题数对应的两两词语间的第二相似度的第二和值;将所述第一和值和所述第二和值的乘积与所述主题数的平方值做商运算,得到所述主题数对应的平衡相似度。3.根据权利要求2所述的方法,其特征在于,所述将平衡相似度满足预设条件时的主题数确定为最优主题数,包括:将平衡相似度最小时的主题数确定为最优主题数。4.根据权利要求1所述的方法,其特征在于,基于所述第一概率计算两两主题间的第一相似度,包括:获取与第一主题对应的第一向量,以及与第二主题对应的第二向量;所述第一向量中的元素为所述第一主题中各个词语出现的第一概率,所述第二向量中的元素为所述第二主题中各个词语出现的第一概率;基于所述第一向量和所述第二向量计算所述第一主题和所述第二主题间的第一相似度。5.根据权利要求1所述的方法,其特征在于,基于所述第一概率和所述第二概率计算两两词语间的第二相似度,包括:计算不同文档中同一主题出现的第二概率的第三和值;对应每一个主题,计算主题对应的所述第三和值与主题中第一词语出现的第一概率的第一乘积,将第一乘积结果与语料库中所述第一词语的词频做商运算,得到在所述第一词语出现的条件下,每一个主题的第三概率;计算主题对应的所述第三和值与主题中第二词语出现的第一概率的第二乘积,将第二乘积结果与语料库中所述第二词语的词频做商运算,得到在所述第二词语出现的条件下,每一个主题的第四概率;获取与所述第一词语对应的第三向量,以及与所述第二词语对应的第四向量;所述第三向量中的元素为在所述第一词语出现的条件下,各个主题的第三概率;所述第四向量中的元素为在所述第二词语出现的条件下,各个主题的第四概率;基于所述第三向量和所述第四向量计算所述第一词语和所述第二词语间的第二相似度。6.一种最优主题数计算装置,其特征在于,包括:第一获取...

【专利技术属性】
技术研发人员:赵耕弘张霞赵立军崔朝辉
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1