【技术实现步骤摘要】
一种电子公文逐级分类方法及系统
[0001]本专利技术涉及电子公文
,特别是涉及一种电子公文逐级分类方法及系统
。
技术介绍
[0002]随着互联网技术的发展,以及大力推动企业信息的公开化
、
数字化,政府网站上越来越多的电子公文信息被发布
。
而互联网上的信息具有数据量大,种类杂的特点,现有技术中,并不存在如何准确识别并获取电子公文数据的技术方案,并且无法对电子公文进行有效地分类,因此,如何提供一种电子公文逐级分类方法及系统是本领域技术人员急需解决的技术问题
。
技术实现思路
[0003]本专利技术的目的是提供一种电子公文逐级分类方法及系统,本专利技术通过引入多种算法对电子公文数据进行分词处理
、
停用词删除处理以及去重处理多种处理方式,对电子公文进行有效地分类,改善了由于电子公文数据繁杂造成的分类难度高的问题
。
[0004]为了实现上述目的,本专利技术提供了如下的技术方案:一种电子公文逐级分类方法,包括:基于爬虫对网络内的电子文本数据进行爬取,所述电子文本数据包括电子公文数据和非电子公文数据;分别将所述电子公文数据和所述非电子公文数据进行分类,并通过中文分词算法对分类后的所述电子公文数据中的中文文本进行分词处理;对进行分词处理后的所述电子公文数据中的停用词进行停用词删除处理以及对所述电子公文数据中的重复词进行去重处理;对停用词处理以及去重处理后的所述电子公文数据进行文本长度统计,并根据文本长度统计的结果对所述电 ...
【技术保护点】
【技术特征摘要】
1.
一种电子公文逐级分类方法,其特征在于,包括:基于爬虫对网络内的电子文本数据进行爬取,所述电子文本数据包括电子公文数据和非电子公文数据;分别将所述电子公文数据和所述非电子公文数据进行分类,并通过中文分词算法对分类后的所述电子公文数据中的中文文本进行分词处理;对进行分词处理后的所述电子公文数据中的停用词进行停用词删除处理以及对所述电子公文数据中的重复词进行去重处理;对停用词处理以及去重处理后的所述电子公文数据进行文本长度统计,并根据文本长度统计的结果对所述电子公文数据进行分类
。2.
根据权利要求1所述一种电子公文逐级分类方法,其特征在于,所述对进行分词处理后的所述电子公文数据中的重复词进行去重处理,包括:通过正则表达式以及
TF_IDF
值对所述电子公文数据中的重复词进行去重处理,并通过文本余弦相似性算法对去重处理后的所述电子公文数据进行分类;其中,所述电子公文数据的
TF_IDF
值是通过以下公式得到的:
TF_IDF TF*IDF
;
TF=m/w
;
IDF=log
(
d/n+1
);式中,
TF
为某个词的词频,
IDF
为逆电子公文数据频率,
m 为某个词在电子公文数据中的出现次数,
w
为电子公文数据的总词数,
d 为分词处理后的电子公文数据的总数,
n 为包含该词的电子公文数据的个数
。3.
根据权利要求2所述一种电子公文逐级分类方法,其特征在于,所述通过文本余弦相似性算法对去重处理后的所述电子公文数据进行分类,包括:根据若干个所述电子公文数据之间每两个所述电子公文数据的
TF_IDF
值确定两个所述电子公文数据的关键词,并根据若干所述关键词组成集合,确定每个所述电子公文数据对于所述集合中的词频;生成两个所述电子公文数据中的词频向量,并基于文本余弦相似性算法计算两个所述电子公文数据的余弦相似性;其中,计算两个所述电子公文数据的余弦相似性是通过以下公式得到的:;式中
,
为余弦相似性,
Ai
为其中一个电子公文数据中的词频向量,
Bi
为其中另一个电子公文数据中的词频向量
。4.
根据权利要求3所述一种电子公文逐级分类方法,其特征在于,所述生成两个所述电子公文数据中的词频向量,包括:通过
word2vec
算法生成两个所述电子公文数据中的词频向量
。5.
根据权利要求1所述一种电子公文逐级分类方法,其特征在于,所述对进行分词处理后的所述电子公文数据中的停用词进行停用词删除处理,包括:对所述电子公文数据中的停用词以及标点符号进行删除处理;其中,所述停用词包括:的
、
地
、
得
、
和以及或<...
【专利技术属性】
技术研发人员:王星汉,张扬,王文涛,李栋梁,李云平,高梦阳,李勇,王肖嵬,刘丽,周聪,
申请(专利权)人:华能信息技术有限公司华能山东发电有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。