一种电子公文逐级分类方法及系统技术方案

技术编号:39734848 阅读:25 留言:0更新日期:2023-12-17 23:37
本发明专利技术涉及电子公文技术领域,特别是涉及一种电子公文逐级分类方法及系统

【技术实现步骤摘要】
一种电子公文逐级分类方法及系统


[0001]本专利技术涉及电子公文
,特别是涉及一种电子公文逐级分类方法及系统


技术介绍

[0002]随着互联网技术的发展,以及大力推动企业信息的公开化

数字化,政府网站上越来越多的电子公文信息被发布

而互联网上的信息具有数据量大,种类杂的特点,现有技术中,并不存在如何准确识别并获取电子公文数据的技术方案,并且无法对电子公文进行有效地分类,因此,如何提供一种电子公文逐级分类方法及系统是本领域技术人员急需解决的技术问题


技术实现思路

[0003]本专利技术的目的是提供一种电子公文逐级分类方法及系统,本专利技术通过引入多种算法对电子公文数据进行分词处理

停用词删除处理以及去重处理多种处理方式,对电子公文进行有效地分类,改善了由于电子公文数据繁杂造成的分类难度高的问题

[0004]为了实现上述目的,本专利技术提供了如下的技术方案:一种电子公文逐级分类方法,包括:基于爬虫对网络内的电子文本数据进行爬取,所述电子文本数据包括电子公文数据和非电子公文数据;分别将所述电子公文数据和所述非电子公文数据进行分类,并通过中文分词算法对分类后的所述电子公文数据中的中文文本进行分词处理;对进行分词处理后的所述电子公文数据中的停用词进行停用词删除处理以及对所述电子公文数据中的重复词进行去重处理;对停用词处理以及去重处理后的所述电子公文数据进行文本长度统计,并根据文本长度统计的结果对所述电子公文数据进行分类

[0005]在本申请的一些实施例中,所述对进行分词处理后的所述电子公文数据中的重复词进行去重处理,包括:通过正则表达式以及
TF_IDF
值对所述电子公文数据中的重复词进行去重处理,并通过文本余弦相似性算法对去重处理后的所述电子公文数据进行分类;其中,所述电子公文数据的
TF_IDF
值是通过以下公式得到的:
TF_IDF TF*IDF

TF=m/w

IDF=log

d/n+1
);式中,
TF
为某个词的词频,
IDF
为逆电子公文数据频率,
m 为某个词在电子公文数据中的出现次数,
w
为电子公文数据的总词数,
d 为分词处理后的电子公文数据的总数,
n 为包含该词的电子公文数据的个数

[0006]在本申请的一些实施例中,所述通过文本余弦相似性算法对去重处理后的所述电
子公文数据进行分类,包括:根据若干个所述电子公文数据之间每两个所述电子公文数据的
TF_IDF
值确定两个所述电子公文数据的关键词,并根据若干所述关键词组成集合,确定每个所述电子公文数据对于所述集合中的词频;生成两个所述电子公文数据中的词频向量,并基于文本余弦相似性算法计算两个所述电子公文数据的余弦相似性;其中,计算两个所述电子公文数据的余弦相似性是通过以下公式得到的:;式中
,
为余弦相似性,
Ai
为其中一个电子公文数据中的词频向量,
Bi
为其中另一个电子公文数据中的词频向量

[0007]在本申请的一些实施例中,所述生成两个所述电子公文数据中的词频向量,包括:通过
word2vec
算法生成两个所述电子公文数据中的词频向量

[0008]在本申请的一些实施例中,所述对进行分词处理后的所述电子公文数据中的停用词进行停用词删除处理,包括:对所述电子公文数据中的停用词以及标点符号进行删除处理;其中,所述停用词包括:的





和以及或

[0009]为了实现上述目的,本专利技术还相应地提供了一种电子公文逐级分类系统,应用于所述的电子公文逐级分类方法中,包括:爬取单元,用于基于爬虫对网络内的电子文本数据进行爬取,所述电子文本数据包括电子公文数据和非电子公文数据;分词单元,用于分别将所述电子公文数据和所述非电子公文数据进行分类,并通过中文分词算法对分类后的所述电子公文数据中的中文文本进行分词处理;处理单元,用于对进行分词处理后的所述电子公文数据中的停用词进行停用词删除处理以及对所述电子公文数据中的重复词进行去重处理;分类单元,用于对停用词处理以及去重处理后的所述电子公文数据进行文本长度统计,并根据文本长度统计的结果对所述电子公文数据进行分类

[0010]在本申请的一些实施例中,所述处理单元还用于通过正则表达式以及
TF_IDF
值对所述电子公文数据中的重复词进行去重处理,并通过文本余弦相似性算法对去重处理后的所述电子公文数据进行分类;其中,所述电子公文数据的
TF_IDF
值是通过以下公式得到的:
TF_IDF TF*IDF

TF=m/w

IDF=log

d/n+1
);式中,
TF
为某个词的词频,
IDF
为逆电子公文数据频率,
m 为某个词在电子公文数据中的出现次数,
w
为电子公文数据的总词数,
d 为分词处理后的电子公文数据的总数,
n 为包含该词的电子公文数据的个数

[0011]在本申请的一些实施例中,所述处理单元还用于根据若干个所述电子公文数据之间每两个所述电子公文数据的
TF_IDF
值确定两个所述电子公文数据的关键词,并根据若干
所述关键词组成集合,确定每个所述电子公文数据对于所述集合中的词频;所述处理单元还用于生成两个所述电子公文数据中的词频向量,并基于文本余弦相似性算法计算两个所述电子公文数据的余弦相似性;其中,计算两个所述电子公文数据的余弦相似性是通过以下公式得到的:;式中
,
为余弦相似性,
Ai
为其中一个电子公文数据中的词频向量,
Bi
为其中另一个电子公文数据中的词频向量

[0012]在本申请的一些实施例中,所述处理单元还用于通过
word2vec
算法生成两个所述电子公文数据中的词频向量

[0013]在本申请的一些实施例中,所述处理单元还用于对所述电子公文数据中的停用词以及标点符号进行删除处理;其中,所述停用词包括:的





和以及或

[0014]本专利技术提供了一种电子公文逐级分类方法及系统,与现有技术相比,其有益效果在于:本专利技术通过对网络内的电子文本数据进行爬取并分类,并通过中文分词算法对分类后的电子公文数据中的中文文本进行分词处理,并结合停用词删除处理以及去重处理,分步骤逐级实现了对电子公文数据的有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种电子公文逐级分类方法,其特征在于,包括:基于爬虫对网络内的电子文本数据进行爬取,所述电子文本数据包括电子公文数据和非电子公文数据;分别将所述电子公文数据和所述非电子公文数据进行分类,并通过中文分词算法对分类后的所述电子公文数据中的中文文本进行分词处理;对进行分词处理后的所述电子公文数据中的停用词进行停用词删除处理以及对所述电子公文数据中的重复词进行去重处理;对停用词处理以及去重处理后的所述电子公文数据进行文本长度统计,并根据文本长度统计的结果对所述电子公文数据进行分类
。2.
根据权利要求1所述一种电子公文逐级分类方法,其特征在于,所述对进行分词处理后的所述电子公文数据中的重复词进行去重处理,包括:通过正则表达式以及
TF_IDF
值对所述电子公文数据中的重复词进行去重处理,并通过文本余弦相似性算法对去重处理后的所述电子公文数据进行分类;其中,所述电子公文数据的
TF_IDF
值是通过以下公式得到的:
TF_IDF TF*IDF

TF=m/w

IDF=log

d/n+1
);式中,
TF
为某个词的词频,
IDF
为逆电子公文数据频率,
m 为某个词在电子公文数据中的出现次数,
w
为电子公文数据的总词数,
d 为分词处理后的电子公文数据的总数,
n 为包含该词的电子公文数据的个数
。3.
根据权利要求2所述一种电子公文逐级分类方法,其特征在于,所述通过文本余弦相似性算法对去重处理后的所述电子公文数据进行分类,包括:根据若干个所述电子公文数据之间每两个所述电子公文数据的
TF_IDF
值确定两个所述电子公文数据的关键词,并根据若干所述关键词组成集合,确定每个所述电子公文数据对于所述集合中的词频;生成两个所述电子公文数据中的词频向量,并基于文本余弦相似性算法计算两个所述电子公文数据的余弦相似性;其中,计算两个所述电子公文数据的余弦相似性是通过以下公式得到的:;式中
,
为余弦相似性,
Ai
为其中一个电子公文数据中的词频向量,
Bi
为其中另一个电子公文数据中的词频向量
。4.
根据权利要求3所述一种电子公文逐级分类方法,其特征在于,所述生成两个所述电子公文数据中的词频向量,包括:通过
word2vec
算法生成两个所述电子公文数据中的词频向量
。5.
根据权利要求1所述一种电子公文逐级分类方法,其特征在于,所述对进行分词处理后的所述电子公文数据中的停用词进行停用词删除处理,包括:对所述电子公文数据中的停用词以及标点符号进行删除处理;其中,所述停用词包括:的





和以及或<...

【专利技术属性】
技术研发人员:王星汉张扬王文涛李栋梁李云平高梦阳李勇王肖嵬刘丽周聪
申请(专利权)人:华能信息技术有限公司华能山东发电有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1