一种基于机器学习的中文文本数据分类方法技术

技术编号:28295656 阅读:11 留言:0更新日期:2021-04-30 16:19
本发明专利技术公开一种基于机器学习的中文文本数据分类方法,涉及机器学习技术领域;提取相关中文文本数据构建训练集合,对其中的描述性数据字段进行分词并进行特征提取生成关联度特征集合,对需要分类的中文文本数据的描述性字段进行分词并进行特征提取,利用关联度特征集合对中文文本数据进行分类。本发明专利技术实现了对中文文本数据进行自动分类,可以高效解决大数据量下中文文本数据分类的问题,减少如传统分类方法中造成的分类歧义的情况。同时对数据中分类信息缺失的问题可以用此方法进行补全,提高数据分析的可靠性。

【技术实现步骤摘要】
一种基于机器学习的中文文本数据分类方法
本专利技术公开一种方法,涉及机器学习
,具体地说是一种基于机器学习的中文文本数据分类方法。
技术介绍
随着电子信息技术的飞速发展,产生的数据量已进入大数据时代,数据挖掘技术已经深入到各个领域,可以根据数据分类对所需获取的信息进行快速定位。但生成或获取各类数据时,存在数据项内部分数据缺失的情况,或是对数据无法进行准确分类的情况,例如通过正则表达式对关键字进行截取的形式,例如对描述字段内包含“苹果”进行截取分类,有可能会对数据产生错误的分类,如“苹果手机”和“红富士苹果”是属于完全不同的两个分类,这类情况对数据的分析与使用会造成相当大的影响。
技术实现思路
本专利技术针对现有技术的问题,提供一种基于机器学习的中文文本数据分类方法,提高文本数据分类的可辨识度,运算速度快,效率高。本专利技术提出的具体方案是:一种基于机器学习的中文文本数据分类方法,提取相关中文文本数据构建训练集合,训练集合中数据至少包含一个描述性字段和一个标准分类字段,对描述性字段进行分词处理并进行特征词提取,统计特征词与标准分类字段之间的关联度生成关联度特征集合,对需分类的中文文本数据的描述性字段进行分词处理并提取特征词,利用关联度特征集合分析特征词组合在标准分类字段的关联度,选取关联度最高的标准分类字段作为描述性字段的标准分类字段,完成分类。优选地,所述的一种基于机器学习的中文文本数据分类方法中对描述性字段的所有特征词做特征选择,构造特征词库,采用概率统计的方式对描述性字段的分词在标准分类字段中出现的次数进行统计,获得特征词与标准分类字段之间的关联度。优选地,所述的一种基于机器学习的中文文本数据分类方法中对描述性字段提取特征词,去除低于一定阈值的非特征词,以及去除无描述意义的副词助词。优选地,所述的一种基于机器学习的中文文本数据分类方法中标准分类字段通过自动获取及人工标记获得,所述自动获取是从数据源中获取包含完整分类字段的数据,所述人工标记则以人工形式对一部分仅含有描述性字段的数据进行分类。一种基于机器学习的中文文本数据分类系统,包括构建模块、分词处理模块及分析分类模块,构建模块提取相关中文文本数据构建训练集合,训练集合中数据至少包含一个描述性字段和一个标准分类字段,分词处理模块对描述性字段进行分词处理并进行特征词提取,统计特征词与标准分类字段之间的关联度生成关联度特征集合,分词处理模块对需分类的中文文本数据的描述性字段进行分词处理并提取特征词,分析分类模块利用关联度特征集合分析特征词组合在标准分类字段的关联度,选取关联度最高的标准分类字段作为描述性字段的标准分类字段,完成分类。优选地,所述的一种基于机器学习的中文文本数据分类系统中分词处理模块对描述性字段的所有特征词做特征选择,构造特征词库,采用概率统计的方式对描述性字段的分词在标准分类字段中出现的次数进行统计,获得特征词与标准分类字段之间的关联度。优选地,所述的一种基于机器学习的中文文本数据分类系统中分词处理模块对描述性字段提取特征词,去除低于一定阈值的非特征词,以及去除无描述意义的副词助词。优选地,所述的一种基于机器学习的中文文本数据分类系统中构建模块通过自动获取及人工标记获得标准分类字段,所述自动获取是从数据源中获取包含完整分类字段的数据,所述人工标记则以人工形式对一部分仅含有描述性字段的数据进行分类。一种基于机器学习的中文文本数据分类装置,至少一个存储器和至少一个处理器;所述至少一个存储器,用于存储机器可读程序;所述至少一个处理器,用于调用所述机器可读程序,执行所述的一种基于机器学习的中文文本数据分类方法。本专利技术的有益之处是:本专利技术提供一种基于机器学习的中文文本数据分类方法,提取相关中文文本数据构建训练集合,对其中的描述性数据字段进行分词并进行特征提取生成关联度特征集合,对需要分类的中文文本数据的描述性字段进行分词并进行特征提取,利用关联度特征集合对中文文本数据进行分类。本专利技术实现了对中文文本数据进行自动分类,可以高效解决大数据量下中文文本数据分类的问题,减少如传统分类方法中造成的分类歧义的情况。同时对数据中分类信息缺失的问题可以用此方法进行补全,提高数据分析的可靠性。附图说明图1是本专利技术方法流程示意图。具体实施方式机器学习:机器学习是人工智能的一个分支,是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人等领域。中文分词技术:所谓分词,就是把一个句子中的词汇按照使用时的意义切分出来。词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而中文是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。相较于英文中文词汇的分割要复杂困难得多。随着中文自动分词系统的关注度不断提高,各种分词特征选择:特征选择的目标是寻找最优特征子集。特征选择能剔除相关性较低或冗余的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化模型,协助理解数据产生的过程。贝叶斯定理:贝叶斯定理(英语:Bayes'theorem)是概率论中的一个定理,描述在已知一些条件下,某事件的发生机率。通常,事件A在事件B已发生的条件下发生的机率,与事件B在事件A已发生的条件下发生的机率是不一样的。然而,这两者是有确定的关系的,贝叶斯定理就是这种关系的陈述。贝叶斯公式的一个用途,即透过已知的三个机率而推出第四个机率。对于变量有二个以上的情况,贝氏定理亦成立。例如:下面结合附图和具体实施例对本专利技术作进一步说明,以使本领域的技术人员可以更好地理解本专利技术并能予以实施,但所举实施例不作为对本专利技术的限定。本专利技术提供一种基于机器学习的中文文本数据分类方法,提取相关中文文本数据构建训练集合,训练集合中数据至少包含一个描述性字段和一个标准分类字段,对描述性字段进行分词处理并进行特征词提取,统计特征词与标准分类字段之间的关联度生成关联度特征集合,对需分类的中文文本数据的描述性字段进行分词处理并提取特征词,利用关联度特征集合分析特征词组合在标准分类字段的关联度,选取关联度最高的标准分类字段作为描述性字段的标准分类字段,完成分类。通过本专利技术方法可提高文本数据分类的可辨识度,运算速度快,效率高。具体应用中,在本专利技术的一些实施例中,进行中文文本数据分类时,首先构建基础关联度的特征集合,其中提取相关数据构建训练集合S,其中,数据需要至少包含一个描述性字段D、标准分类字段C,也可以是包含多个描述性字段或标准本文档来自技高网...

【技术保护点】
1.一种基于机器学习的中文文本数据分类方法,其特征是提取相关中文文本数据构建训练集合,训练集合中数据至少包含一个描述性字段和一个标准分类字段,/n对描述性字段进行分词处理并进行特征词提取,统计特征词与标准分类字段之间的关联度生成关联度特征集合,/n对需分类的中文文本数据的描述性字段进行分词处理并提取特征词,利用关联度特征集合分析特征词组合在标准分类字段的关联度,选取关联度最高的标准分类字段作为描述性字段的标准分类字段,完成分类。/n

【技术特征摘要】
1.一种基于机器学习的中文文本数据分类方法,其特征是提取相关中文文本数据构建训练集合,训练集合中数据至少包含一个描述性字段和一个标准分类字段,
对描述性字段进行分词处理并进行特征词提取,统计特征词与标准分类字段之间的关联度生成关联度特征集合,
对需分类的中文文本数据的描述性字段进行分词处理并提取特征词,利用关联度特征集合分析特征词组合在标准分类字段的关联度,选取关联度最高的标准分类字段作为描述性字段的标准分类字段,完成分类。


2.根据权利要求1所述的一种基于机器学习的中文文本数据分类方法,其特征是对描述性字段的所有特征词做特征选择,构造特征词库,采用概率统计的方式对描述性字段的分词在标准分类字段中出现的次数进行统计,获得特征词与标准分类字段之间的关联度。


3.根据权利要求1或2所述的一种基于机器学习的中文文本数据分类方法,其特征是对描述性字段提取特征词,去除低于一定阈值的非特征词,以及去除无描述意义的副词助词。


4.根据权利要求3所述的一种基于机器学习的中文文本数据分类方法,其特征是标准分类字段通过自动获取及人工标记获得,所述自动获取是从数据源中获取包含完整分类字段的数据,所述人工标记则以人工形式对一部分仅含有描述性字段的数据进行分类。


5.一种基于机器学习的中文文本数据分类系统,其特征是包括构建模块、分词处理模块及分析分类模块,
构建模块提取相关中文文本数据构建训练集合,训练集合中数据至少包含一个描述性字段和一个标准分...

【专利技术属性】
技术研发人员:郑敏吴呈良王家海
申请(专利权)人:浪潮卓数大数据产业发展有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1