本发明专利技术涉及一种基于词矢量的短文本分类模型生成方法,包括:采集数据,并对所采集的数据进行领域标注,将这些已标注的数据作为训练数据;对训练数据做预处理;查询词矢量词典,将训练数据中所包含的文本数据转化为向量数据,并且将所述向量数据按照领域进行分隔;对每一个领域内的向量数据采用高斯模型进行模型训练,得到高斯模型参数的最优值,从而得到该领域所对应的高斯模型;所有训练数据的各个领域所对应的高斯模型组成分类模型。
【技术实现步骤摘要】
本专利技术涉及文本挖掘领域,特别涉及。
技术介绍
随着互联网技术的飞速发展,大量文本信息及数据涌现。为了有效地管理和利用这些信息,基于内容的信息检索和数据挖掘逐渐成为备受关注的领域。其中,文本分类技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域发挥着重要的作用。然而,最近由于社交网络和电子商务的发展,诸如微博、即时信息、商品评价、影评等短文本形式的文本数据爆炸式地增长,所谓的短文本通常是一句简单的话,它具有包含的字数较少,不便于统计等特点。如何能够从这些短文本中提取出有用信息,根据这些有用信息更好地为用户提供服务成为互联网服务的关键。例如,如果一个用户在微博中经常发一些关于计算机方面的状态,那么我们可以自动地向他推荐一些计算机方面的产品、文章、评论等,更好地满足用户的需求。传统的文本分类方法通常是通过计算每个字、词或短语在特定领域下出现的次数及概率(即简单地来讲是数数机制)来实现文本分类,但是对于新的文本数据,由于有些字或词未在之前出现过,那么往往会被忽略。这种简单的计数机制没有充分地考虑文本语义层面上的信息。
技术实现思路
本专利技术的目的在于克服现有技术中的文本分类方法不适用于短文本的缺陷,从而提供一种适用于短文本的分类方法。为了实现上述目的,本专利技术提供了一种基于词矢量的短文本分类模型生成方法,包括:步骤101)、采集数据,并对所采集的数据进行领域标注,将这些已标注的数据作为训练数据;步骤102)、对训练数据做预处理;步骤103)、查询词矢量词典,将训练数据中所包含的文本数据转化为向量数据,并且将所述向量数据按照领域进行分隔;步骤104)、对每一个领域内的向量数据采用高斯模型进行模型训练,得到高斯模型参数的最优值,从而得到该领域所对应的高斯模型;所有训练数据的各个领域所对应的高斯模型组成分类模型。上述技术方案中,还包括:步骤105)、采集并标注数据,将这些已标注的数据作为测试数据;将所述测试数据应用于步骤104)所得到的训练模型,由所述训练模型所生成的结果验证训练模型的有效性,如果训练模型不合适,进行参数调优。上述技术方案中,在步骤101)之前还包括:从互联网中抓取大量的网页文本文件,对网页文本文件中的文本数据进行词矢量训练,得到一个包含有描述词与矢量对应关系的词典。上述技术方案中,在步骤102)中,所述预处理包括:剔除训练数据中的无效数据,去除停用词。上述技术方案中,在步骤102)中,所述预处理还包括对中文数据做分词操作。上述技术方案中,所述高斯模型的参数包括高斯均值与方差,高斯模型参数的最优值是指能够使准确率达到最高的参数值。本专利技术还提供了一种基于词矢量的短文本分类方法,包括:步骤201)、输入所要检测的文本数据,对这些待检测的文本数据做预处理;步骤202)、将待检测的文本数据输入所述基于词矢量的短文本分类模型生成方法所得到的训练模型中与各个领域相对应的高斯模型,得到这一文本数据通过各个高斯模型后所生成的后验概率,将后验概率最大的那个高斯模型所对应的领域信息作为待检测文本数据的分类结果。上述技术方案中,所述预处理包括:剔除训练数据中的无效数据,去除停用词。 上述技术方案中,所述预处理还包括对中文数据做分词操作。本专利技术的优点在于:本专利技术的方法通过建立基于词矢量的分类模型实现短文本的分类,具有分类较高好、识别度高的优点。【附图说明】图1是本专利技术的分类模型生成方法的流程图;图2是本专利技术的分类方法的流程图。【具体实施方式】为了便于理解,首先对本专利技术中所涉及的概念加以说明。词矢量:用一个数学上的列向量来表示一个词。一个词所对应的列向量可通过训练大批量的语料,然后利用诸如word2vec的开源工具处理这些语料得到。词矢量词典:用于记录词矢量的词典。现结合附图对本专利技术作进一步的描述。本专利技术的方法包括训练阶段与分类阶段,所述分类阶段主要利用已标注的数据训练分类模型,而在分类阶段则利用已训练的分类模型对所要检测的文本数据进行分类。下面分别对这两个阶段所要完成的工作分别加以说明。参考图1,本专利技术的方法在训练阶段包括下列步骤:步骤101)、采集数据,并对所采集的数据进行标注,将这些已标注的数据作为训练数据。本步骤在采集数据时,可根据应用的需求确定所采集数据的类型。例如,若本专利技术的方法需应用于一与金融业有关的应用,则在采集数据时应当尽可能地采集一些金融领域的短文本。所采集数据的数量可根据需要而定,一般来说,数据的采集量越大,训练得到的分类模型越准确。对所采集的数据进行标注是指对收集到的短文本打上领域标签,所述的领域标签能够反映数据所处的领域。比如,对于如下的一个短文本:“Fitbit推出WP应用:成首款支持WP的智能手环”可标注“计算机”领域标签。步骤102)、对训练数据做预处理,所述预处理包括:剔除训练数据中的无效数据(如标点、格式符等),去除停用词(如“的”、“这个”、“那个”等一些没有实质意义的词)。特别的,对于中文数据还需要做分词操作,如何对中文数据做分词操作为本领域技术人员所公知,此处不再重复。步骤103)、查询词矢量词典,将训练数据中所包含的文本数据转化为向量数据,并且按照领域进行分隔。在之前的步骤101)中,训练数据中所包含的文本数据带有领域标签,在将文本数据转化为向量数据后,这些向量数据当前第1页1 2 本文档来自技高网...
【技术保护点】
一种基于词矢量的短文本分类模型生成方法,包括:步骤101)、采集数据,并对所采集的数据进行领域标注,将这些已标注的数据作为训练数据;步骤102)、对训练数据做预处理;步骤103)、查询词矢量词典,将训练数据中所包含的文本数据转化为向量数据,并且将所述向量数据按照领域进行分隔;步骤104)、对每一个领域内的向量数据采用高斯模型进行模型训练,得到高斯模型参数的最优值,从而得到该领域所对应的高斯模型;所有训练数据的各个领域所对应的高斯模型组成分类模型。
【技术特征摘要】
【专利技术属性】
技术研发人员:张艳,马成龙,潘接林,颜永红,
申请(专利权)人:中国科学院声学研究所,北京中科信利技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。