深度玻尔兹曼机模型及短文本主题分类系统和方法技术方案

技术编号:10574112 阅读:252 留言:0更新日期:2014-10-29 09:25
本发明专利技术公开了一种深度玻尔兹曼机模型及短文本主题分类系统及方法,该模型由一层可见层和两层隐藏层组成,可见层和隐藏层包含若干随机二元单元,层与层之间存在连接,各层的节点内部相互独立;该系统包含短文本预处理模块;短文本的特征表示模块;模型训练模块;获得的文本的向量模型进行主题建模,构建主题分类器,该模块包含预训练和正式训练两个子模块;短文本分类模块;该系统及方法充分利用短文本的潜在语义信息,弥补传统短文本分类方法的不足,降低了对词语相似度的依赖,使该系统应用具有准确度高、易于实现、易于扩展以及无需人工参与的优点。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种深度玻尔兹曼机模型及短文本主题分类系统及方法,该模型由一层可见层和两层隐藏层组成,可见层和隐藏层包含若干随机二元单元,层与层之间存在连接,各层的节点内部相互独立;该系统包含短文本预处理模块;短文本的特征表示模块;模型训练模块;获得的文本的向量模型进行主题建模,构建主题分类器,该模块包含预训练和正式训练两个子模块;短文本分类模块;该系统及方法充分利用短文本的潜在语义信息,弥补传统短文本分类方法的不足,降低了对词语相似度的依赖,使该系统应用具有准确度高、易于实现、易于扩展以及无需人工参与的优点。【专利说明】
本专利技术涉及一种,属于自然语 言处理领域。
技术介绍
近年来,在线社交网络平台(SNS)日益成为个人和组织结构的最重要的交流平台 之一。在这些平台中,用户不仅仅可以接收到最新的新闻和信息,还可以自由的发表自己的 观点和看法,每个用户都成为了所谓的"自媒体"。因此,在线社交网络平台上产生了海量 的异构的信息,而这些信息有其独有的特征,最显著的特征是长度短,因此我们称之为短文 本。还有其他显著特点,比如内容丰富、表达方式不规范、主题比较突出、实时性强等。 短文本的分类技术是其他与短文本有关的研究的基础,比如事件探测、个性化推 荐等。传统的文本分类技术,是以对比文档相似度为基础,仅仅依赖词语表面上的相同,这 类方法的明显不足之处在于对同义词或近义词的识别上精确度不够。应用于短文本分类 中,受到短文本数据特征稀疏性的影响,效果非常不好
技术实现思路
本专利技术的技术解决问题:克服现有技术方案的不足,提供一种基于深度玻尔兹曼 机模型和短文本主题分类系统及方法,该系统及方法充分利用挖掘短文本的隐藏语义信 息,弥补传统短文本分类技术的不足,降低了对文档表面相似度的依赖,使该系统应用具有 准确度高、易于扩展以及实用性强的优点。 本专利技术通过以下技术手段实现: -种深度玻尔兹曼机模型,由一层可见层和两层隐藏层组成,可见层和隐藏层包 含若干随机二元单元,层与层之间存在连接,各层的节点内部相互独立。 -种基于深度玻尔兹曼机的短文本的主题分类系统,包括: 短文本预处理模块,所述的短文本预处理模块用于采用基于正则表达式的方法将 短文本中包含的非文本数据和冗余信息删除; 短文本的特征表示模块,所述的短文本的特征表示模块将短文本数据转换成向量 形式; 模型训练模块,所述的模型训练模块采用含有双隐藏层的深度玻尔兹曼机模型对 训练集的短文本数据进行建模,构建主题分类器,所述的模型训练模块包含预训练子模块 和正式训练子模块; 短文本分类模块,所述的短文本分类模块根据模型训练模块训练所得的分类器, 对测试数据集的数据进行分类。 进一步的,所述的短文本的特征表示模块包含以下步骤: S1,确定一个词典; S2,对短文本进行分词处理; S3,将分词后的短文本转换成向量形式,该向量的维数与字典长度相同,元素值为 与之对应单词在短文本中出现的次数。 一种深度玻尔兹曼机模型对短文本进行主题挖掘的方法,包含以下步骤: S1,对短文本进行建模,第一层表不可见的短文本数据,第一隐藏层表不短文本隐 藏的主题; S2,第二隐藏层对第一隐藏层进行优先级控制; S3,模型训练,所述的模型训练包含预训练与正式训练;所述的模型训练为将训练 集中的每个短文本数据看作是模型中的可见层,对文本数据进行训练,学习出相应的模型 参数,构建一个主题分类器。 进一步的所述的预训练包含以下步骤: S301,初始化第二隐藏层; S302,重构第一隐藏层; S303,重构可见层; S304,重构第一隐藏层; S305,计算对比离散度; S306,更新参数并返回到文本数据初始位置。 最后,所述的正式训练包含以下步骤: S311,变分法重构第一隐藏层; S312,变分法重构第二隐藏层; S313, MCmC算法计算期望; S314,更新参数并返回文本数据初始位置。 本专利技术与现有技术相比的优点在于: (1)本专利技术提出了基于含有双隐藏层的深度玻尔兹曼机对短文本进行主题建模的 方法。传统的主题模型属于有向概率图模型,其参数推理的算法非常耗时且不精确。此外, 传统的主题模型以词语相似度为基础,直接使用传统主题模型对短文本进行主题建模时, 会因为短文本的数据稀疏性而导致效果不好。而含有双隐藏层的深度玻尔兹曼机是一种生 成式无向概率图模型,采用变分法和马尔科夫链一蒙特卡洛算法进行参数学习,相比于传 统的主题模型,其参数推理的效率和准确度更高。而且,含有双隐藏层的深度玻尔兹曼机是 直接从短文本自身挖掘潜在主题,不依赖于词语相似度对比,因此能够更好的表达出短文 本的潜在语义结构,从而达到更好的主题分类精确度; (2)本专利技术摆脱了对人工标注的依赖。传统的主题模型方法属于监督式学习,需要 预先给定带有正确标注的训练集,而本专利技术提出的方法是一种无监督式的特征学习方法, 只需要给定词典和语料库,就能够自主的学习出短文本的潜在主题信息。 【专利附图】【附图说明】 图1是本专利技术系统的体系结构图; 图2是本专利技术的模型预训练的具体过程; 图3是本专利技术的模型正式训练的具体过程。 【具体实施方式】 下面结合附图对本专利技术的实施方式进行详细说明,具体步骤如下: 如图1所示,该系统包括如下模块: 短文本预处理模块。社交网络平台上产生了海量的异构短文本数据,这些短文本 中包含大量的非文本数据和冗余信息,比如时间戳、用户名、URL信息等,需要将这些无用信 息过滤掉,我们采用基于正则表达式的方法将这些信息从每个短文本中删除,只保留纯文 本数据。 短文本的特征表示模块。由于计算机无法理解普通文本数据,因此需要将文本数 据转化成计算机能够处理的形式。采用向量空间模型,将语料库中的所有短文本数据转换 成向量形式。首先确定一个词典,然后对短文本进行分词处理,最后将分词后的每个短文本 转换成向量形式。该向量的维数与字典长度相同,元素值为与之对应单词在短文本中出现 的次数。 模型训练模块:在短文本的向量模型基础上,将每个短文本视为模型中的可见数 据,模型中的第一隐藏层表示短文本的潜在主题结构。通过训练模型,挖掘出短文本的潜在 主题信息,进而构建主题分类器。其中包含预训练子模块和正式训练模块:预训练是为了获 得一组更加合理的参数初始值,从而缩短正式训练的所花费的时间。在预训练中,采用一步 对比离散度算法学习模型参数,在正式训练中,采用平均场变分法和基于马尔科夫链一蒙 特卡洛算法对参数进行估计。 短文本分类模块:根据模型训练模块训练所得的分类器,对测试数据集中的数据 进行分类。 为了便于比较,我们采用一个公有的Twitter文本数据集,它是由文本检索会议 (TREC)提供的Tweet2011数据集,包含了 2011年1月23号到2月8号的一部分Twitter 文本数据。 一、短文本预处理 在Tweet2011数据集中,包含大量的冗余信息,比如时间戳、用户名、URL信息等, 将这些无用信息过滤掉,对文本进行小写化本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201410215042.html" title="深度玻尔兹曼机模型及短文本主题分类系统和方法原文来自X技术">深度玻尔兹曼机模型及短文本主题分类系统和方法</a>

【技术保护点】
一种深度玻尔兹曼机模型,其特征在于:由一层可见层和两层隐藏层组成,可见层和隐藏层包含若干随机二元单元,层与层之间存在连接,各层的节点内部相互独立。

【技术特征摘要】

【专利技术属性】
技术研发人员:李超李昂赵彩贝
申请(专利权)人:深圳北航新兴产业技术研究院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1