一种基于机器学习的中文文本数据分类方法技术

技术编号：28295656 阅读：11 留言：0更新日期：2021-04-30 16:19

本发明专利技术公开一种基于机器学习的中文文本数据分类方法,涉及机器学习技术领域；提取相关中文文本数据构建训练集合，对其中的描述性数据字段进行分词并进行特征提取生成关联度特征集合，对需要分类的中文文本数据的描述性字段进行分词并进行特征提取，利用关联度特征集合对中文文本数据进行分类。本发明专利技术实现了对中文文本数据进行自动分类，可以高效解决大数据量下中文文本数据分类的问题，减少如传统分类方法中造成的分类歧义的情况。同时对数据中分类信息缺失的问题可以用此方法进行补全，提高数据分析的可靠性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习的中文文本数据分类方法
本专利技术公开一种方法,涉及机器学习
，具体地说是一种基于机器学习的中文文本数据分类方法。
技术介绍
随着电子信息技术的飞速发展，产生的数据量已进入大数据时代,数据挖掘技术已经深入到各个领域，可以根据数据分类对所需获取的信息进行快速定位。但生成或获取各类数据时,存在数据项内部分数据缺失的情况，或是对数据无法进行准确分类的情况，例如通过正则表达式对关键字进行截取的形式，例如对描述字段内包含“苹果”进行截取分类，有可能会对数据产生错误的分类，如“苹果手机”和“红富士苹果”是属于完全不同的两个分类，这类情况对数据的分析与使用会造成相当大的影响。
技术实现思路
本专利技术针对现有技术的问题，提供一种基于机器学习的中文文本数据分类方法，提高文本数据分类的可辨识度，运算速度快，效率高。本专利技术提出的具体方案是：一种基于机器学习的中文文本数据分类方法，提取相关中文文本数据构建训练集合，训练集合中数据至少包含一个描述性字段和一个标准分类字段，对描述性字段进行分词处理并进行特征词提取，统计特征词与标准分类字段之间的关联度生成关联度特征集合，对需分类的中文文本数据的描述性字段进行分词处理并提取特征词，利用关联度特征集合分析特征词组合在标准分类字段的关联度，选取关联度最高的标准分类字段作为描述性字段的标准分类字段，完成分类。优选地，所述的一种基于机器学习的中文文本数据分类方法中对描述性字段的所有特征词做特征选择，构造特征词库，采用概...

【技术保护点】
1.一种基于机器学习的中文文本数据分类方法，其特征是提取相关中文文本数据构建训练集合，训练集合中数据至少包含一个描述性字段和一个标准分类字段，/n对描述性字段进行分词处理并进行特征词提取，统计特征词与标准分类字段之间的关联度生成关联度特征集合，/n对需分类的中文文本数据的描述性字段进行分词处理并提取特征词，利用关联度特征集合分析特征词组合在标准分类字段的关联度，选取关联度最高的标准分类字段作为描述性字段的标准分类字段，完成分类。/n

【技术特征摘要】
1.一种基于机器学习的中文文本数据分类方法，其特征是提取相关中文文本数据构建训练集合，训练集合中数据至少包含一个描述性字段和一个标准分类字段，
对描述性字段进行分词处理并进行特征词提取，统计特征词与标准分类字段之间的关联度生成关联度特征集合，
对需分类的中文文本数据的描述性字段进行分词处理并提取特征词，利用关联度特征集合分析特征词组合在标准分类字段的关联度，选取关联度最高的标准分类字段作为描述性字段的标准分类字段，完成分类。

2.根据权利要求1所述的一种基于机器学习的中文文本数据分类方法，其特征是对描述性字段的所有特征词做特征选择，构造特征词库，采用概率统计的方式对描述性字段的分词在标准分类字段中出现的次数进行统计，获得特征词与标准分类字段之间的关联度。

3.根据权利要求1或2所述的一种基于机器学习的中文文本数据分类方法，其特征是对描述性字段提取特征词，去除低于一定阈值的非特征词，以及去除无描述意义的副词助词。

4.根据权利要求3所述的一种基于机器学习的中文文本数据分类方法，其特征是标准分类字段通过自动获取及人工标记获得，所述自动获取是从数据源中获取包含完整分类字段的数据，所述人工标记则以人工形式对一部分仅含有描述性字段的数据进行分类。

5.一种基于机器学习的中文文本数据分类系统，其特征是包括构建模块、分词处理模块及分析分类模块，
构建模块提取相关中文文本数据构建训练集合，训练集合中数据至少包含一个描述性字段和一个标准分...

【专利技术属性】
技术研发人员：郑敏，吴呈良，王家海，
申请(专利权)人：浪潮卓数大数据产业发展有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人