【技术实现步骤摘要】
最优主题数计算方法及装置
本专利技术涉及机器学习
,更具体地说,涉及一种最优主题数计算方法及装置。
技术介绍
在自然语言处理过程中,文档对于计算机通常被当作是一个无限维度的向量。而这种无限维度的向量对于计算机本身又是不可被计算的,这时就需要对文本进行降维处理,让它以一定维度的数学向量储存在计算机中以便计算。主题模型(TopicModel)就是一种常见的文档降维方法。主题模型的实质是对文档中隐含主题的一种建模方法。具体的,主题模型就是通过已知的“词语-文档”矩阵进行训练,得到“词语-主题”矩阵和“主题-文档”矩阵的过程。其中,“词语-文档”矩阵表示每个文档中每个词语的词频(即出现的概率);“词语-主题”矩阵表示每个主题中每个词语出现的概率;“主题-文档”矩阵表示每个文档中每个主题出现的概率。上述训练过程,需要先获取若干个主题数,然后基于每一个主题数,通过“词语-文档”矩阵进行训练,得到每一个主题数对应的“词语-主题”矩阵和“主题-文档”矩阵,然后从上述若干个主题中选择一个最优的主题数,将该最优主题数对应的“词语-主题”矩阵和“主题-文档”矩阵作为最优结果输出。显然,主题数是主题模型的一个重要参数。如果最优主题数选择不当(主题数过少或过多)会导致主题模型的输出结果的质量较差。因此,如何选择最优主题数成为亟待解决的问题。
技术实现思路
本专利技术的目的是提供一种最优主题数计算方法及装置,以提高主题模型的输出结果的质量。为实现上述目的,本专利技术提供了如下技术方案:一种最优主题数计算方法,包括:获取主题模型中使用的若干个主题数;对应每一个所述主题数,获取所述主题 ...
【技术保护点】
一种最优主题数计算方法,其特征在于,包括:获取主题模型中使用的若干个主题数;对应每一个所述主题数,获取所述主题数对应的,每个主题中每个词语出现的第一概率,以及每个文档中每个主题出现的第二概率;基于所述第一概率和所述第二概率,计算两两主题间的第一相似度,以及两两词语间的第二相似度;基于所述主题数对应的两两主题间的第一相似度、所述主题数对应的两两词语间的第二相似度以及所述主题数,计算所述主题数对应的平衡相似度,所述平衡相似度的大小用于衡量主题数的优劣;将平衡相似度满足预设条件时的主题数确定为最优主题数。
【技术特征摘要】
1.一种最优主题数计算方法,其特征在于,包括:获取主题模型中使用的若干个主题数;对应每一个所述主题数,获取所述主题数对应的,每个主题中每个词语出现的第一概率,以及每个文档中每个主题出现的第二概率;基于所述第一概率和所述第二概率,计算两两主题间的第一相似度,以及两两词语间的第二相似度;基于所述主题数对应的两两主题间的第一相似度、所述主题数对应的两两词语间的第二相似度以及所述主题数,计算所述主题数对应的平衡相似度,所述平衡相似度的大小用于衡量主题数的优劣;将平衡相似度满足预设条件时的主题数确定为最优主题数。2.根据权利要求1所述的方法,其特征在于,所述基于所述主题数对应的两两主题间的第一相似度、所述主题数对应的两两词语间的第二相似度以及所述主题数,计算所述主题数对应的平衡相似度,包括:计算所述主题数对应的两两主题间的第一相似度的第一和值,以及所述主题数对应的两两词语间的第二相似度的第二和值;将所述第一和值和所述第二和值的乘积与所述主题数的平方值做商运算,得到所述主题数对应的平衡相似度。3.根据权利要求2所述的方法,其特征在于,所述将平衡相似度满足预设条件时的主题数确定为最优主题数,包括:将平衡相似度最小时的主题数确定为最优主题数。4.根据权利要求1所述的方法,其特征在于,基于所述第一概率计算两两主题间的第一相似度,包括:获取与第一主题对应的第一向量,以及与第二主题对应的第二向量;所述第一向量中的元素为所述第一主题中各个词语出现的第一概率,所述第二向量中的元素为所述第二主题中各个词语出现的第一概率;基于所述第一向量和所述第二向量计算所述第一主题和所述第二主题间的第一相似度。5.根据权利要求1所述的方法,其特征在于,基于所述第一概率和所述第二概率计算两两词语间的第二相似度,包括:计算不同文档中同一主题出现的第二概率的第三和值;对应每一个主题,计算主题对应的所述第三和值与主题中第一词语出现的第一概率的第一乘积,将第一乘积结果与语料库中所述第一词语的词频做商运算,得到在所述第一词语出现的条件下,每一个主题的第三概率;计算主题对应的所述第三和值与主题中第二词语出现的第一概率的第二乘积,将第二乘积结果与语料库中所述第二词语的词频做商运算,得到在所述第二词语出现的条件下,每一个主题的第四概率;获取与所述第一词语对应的第三向量,以及与所述第二词语对应的第四向量;所述第三向量中的元素为在所述第一词语出现的条件下,各个主题的第三概率;所述第四向量中的元素为在所述第二词语出现的条件下,各个主题的第四概率;基于所述第三向量和所述第四向量计算所述第一词语和所述第二词语间的第二相似度。6.一种最优主题数计算装置,其特征在于,包括:第一获取...
【专利技术属性】
技术研发人员:赵耕弘,张霞,赵立军,崔朝辉,
申请(专利权)人:东软集团股份有限公司,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。