一种数据分析方法和存储介质技术

技术编号:32358418 阅读:14 留言:0更新日期:2022-02-20 03:22
一种数据分析方法和存储介质,方法包括如下步骤:对文章进行聚类,文章标题权重记为Δt,文章内容段落标题权重Δg(Δt>Δg>1)。对文章标题进行分词,得到标题词向量V

【技术实现步骤摘要】
一种数据分析方法和存储介质


[0001]本专利技术涉及数据分析领域,尤其涉及一种能够进行事件提取的数据分析方法。

技术介绍

[0002]企业在经营过程中需要进行很多决策,特别重大决策、重要干部任免、重大项目安排和大额度资金的使用等,这些决策会形成很多会议记录、事项清单、决议文件,同时这些事项、决议会由各级组织执行落实,对于这些决策决定到执行、落实整个过程进行跟踪目前更也采用信息化系统提供的功能通过关系型数据库建立记录建的关联,或者还有某些聚类的算法形成各类的专题。与之对应于事件的提取目前也有一些结构化分析算法。但是无法满足进行准确事件提取的需求。

技术实现思路

[0003]因此,需要提供一种数据分析方法,能够满足准确有效地进行事件提取的需求。
[0004]为实现上述目的,专利技术人提供了一种数据分析方法,包括如下步骤:
[0005]对文章进行聚类,文章标题权重记为Δt,文章内容段落标题权重Δg(Δt>Δg>1),
[0006]对文章标题进行分词,得到标题词向量V
t
,每一个标题词向量的权重值为词频乘以Δt;
[0007]对文章段落标题进行分词,得到段落标题词向量V
g
,每一个段落标题词向量权重值为词频乘以Δg;
[0008]对文章其他内容进行分词,形成内容词向量V
c
,权重值为词频;
[0009]合并标题词向量V
t
,段落标题词向量V
g
,内容词向量V
c
,得到文章的词向量,
[0010]对所述文章的词向量,计算余弦相似度作为空间距离,再使用K

means聚类算法对不同的文章数据进行聚类,得到文章聚类集合D={D1,D2,

,D
n
}。
[0011]对文章聚类集合进行事件提取:遍历所述文章聚类集合D={D1,D2,

,D
n
}中每个聚类的所有文章数据,对同属一个聚类的文章的文章标题采用TextRank算法,仅处理词性为名词和动词,得到最重要的n个词语集合K
t
;对所有同一个聚类的文章段落标题采用TextRank算法,仅处理词性为名词和动词,得到最重要的n个词语集合K
g
;对所有同一个聚类的文章其他内容采用TextRank算法,仅处理词性为名词和动词,得到最重要的n个词语集合K
c
;最终得到文章数据的事件模型。
[0012]具体地,还包括步骤,根据所述文章的词向量,计算余弦距离计算的方法,完成朴素贝叶斯分类器模型训练。
[0013]具体地,还包括步骤,根据所述事件模型对所有文章的所有段落进行分类,并反向遍历每个事件,根据对每个事件关联的段落形成事件脉络。
[0014]具体地,对文章进行聚类前还包括步骤,用正则表达式匹配从文章头部中提取:文章标题、发文单位和发文,解析文章正文内容,采用模式匹配方法提取文章段落标题,提取
划分段落。
[0015]具体地,所述文章为公文。
[0016]一种数据分析存储介质,存储有计算机程序,所述计算机程序在被运行时执行包括如下步骤:
[0017]对文章进行聚类,文章标题权重记为Δt,文章内容段落标题权重Δg(Δt>Δg>1),
[0018]对文章标题进行分词,得到标题词向量V
t
,每一个标题词向量的权重值为词频乘以Δt;
[0019]对文章段落标题进行分词,得到段落标题词向量V
g
,每一个段落标题词向量权重值为词频乘以Δg;
[0020]对文章其他内容进行分词,形成内容词向量V
c
,权重值为词频;
[0021]合并标题词向量V
t
,段落标题词向量V
g
,内容词向量V
c
,得到文章的词向量,
[0022]对所述文章的词向量,计算余弦相似度作为空间距离,再使用K

means聚类算法对不同的文章数据进行聚类,得到文章聚类集合D={D1,D2,

,D
n
}。
[0023]对文章聚类集合进行事件提取:遍历所述文章聚类集合D={D1,D2,

,D
n
}中每个聚类的所有文章数据,对同属一个聚类的文章的文章标题采用TextRank算法,仅处理词性为名词和动词,得到最重要的n个词语集合K
t
;对所有同一个聚类的文章段落标题采用TextRank算法,仅处理词性为名词和动词,得到最重要的n个词语集合K
g
;对所有同一个聚类的文章其他内容采用TextRank算法,仅处理词性为名词和动词,得到最重要的n个词语集合K
c
;最终得到文章数据的事件模型。
[0024]具体地,所述计算机程序在被运行时还执行包括步骤,根据所述文章的词向量,计算余弦距离计算的方法,完成朴素贝叶斯分类器模型训练。
[0025]具体地,所述计算机程序在被运行时还执行包括步骤,根据所述事件模型对所有文章的所有段落进行分类,并反向遍历每个事件,根据对每个事件关联的段落形成事件脉络。
[0026]具体地,所述计算机程序在被运行时还执行包括步骤,对文章进行聚类前,用正则表达式匹配从文章头部中提取:文章标题、发文单位和发文,解析文章正文内容,采用模式匹配方法提取文章段落标题,提取划分段落。
[0027]具体地,所述文章为公文。
[0028]区别于现有技术,上述方案能够对文章数据进行提取词向量之后进行K

means聚类操作,能够根据关键词的主题进行更加准确的聚类,再针对聚类进行事件提取,能够最终提升事件提取的准确性和有效性。
附图说明
[0029]图1为具体实施方式所述的数据分析方法流程图;
[0030]图2为具体实施方式所述的数据分析介质模块图。
具体实施方式
[0031]为详细说明技术方案的
技术实现思路
、构造特征、所实现目的及效果,以下结合具体实
施例并配合附图详予说明。
[0032]在实际的生活过程中,我们的专利技术人发现,通过关系型数据库持久化后建立记录间的关联针对的是结构化的数据,无法适用于通过各类文件下达决议并落实执行的情况。目前各类的聚类算法可以形成各类的专题,但是针对这类从决策、执行、跟踪、反馈具有典型逻辑顺序的非结构化文件无法体现逻辑脉络特征,而这些逻辑脉络恰恰是企业的关注点。同时企业的一项决策可能会涵盖不同的专题,比如国企改革专题,每个企业的不同层级组织在落实过程的举措不一,难以准确聚类到一起。从文本文件提取事件的算法关注于提取其中的事件,与聚类算法存在类似的问题,无法较好体现逻辑脉络。
[0033]企业在经营活动是基于战略本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据分析方法,其特征在于,包括如下步骤:对文章进行聚类,文章标题权重记为Δt,文章内容段落标题权重Δg(Δt>Δg>1),对文章标题进行分词,得到标题词向量V
t
,每一个标题词向量的权重值为词频乘以Δt;对文章段落标题进行分词,得到段落标题词向量V
g
,每一个段落标题词向量权重值为词频乘以Δg;对文章其他内容进行分词,形成内容词向量V
c
,权重值为词频;合并标题词向量V
t
,段落标题词向量V
g
,内容词向量V
c
,得到文章的词向量,对所述文章的词向量,计算余弦相似度作为空间距离,再使用K

means聚类算法对不同的文章数据进行聚类,得到文章聚类集合D={D1,D2,

,D
n
};对文章聚类集合进行事件提取:遍历所述文章聚类集合D={D1,D2,

,D
n
}中每个聚类的所有文章数据,对同属一个聚类的文章的文章标题采用TextRank算法,仅处理词性为名词和动词,得到最重要的n个词语集合K
t
;对所有同一个聚类的文章段落标题采用TextRank算法,仅处理词性为名词和动词,得到最重要的n个词语集合K
g
;对所有同一个聚类的文章其他内容采用TextRank算法,仅处理词性为名词和动词,得到最重要的n个词语集合K
c
;最终得到文章数据的事件模型。2.根据权利要求1所述的数据分析方法,其特征在于,还包括步骤,根据所述文章的词向量,计算余弦距离计算的方法,完成朴素贝叶斯分类器模型训练。3.根据权利要求1所述的数据分析方法,其特征在于,还包括步骤,根据所述事件模型对所有文章的所有段落进行分类,并反向遍历每个事件,根据对每个事件关联的段落形成事件脉络。4.根据权利要求1所述的数据分析方法,其特征在于,对文章进行聚类前还包括步骤,用正则表达式匹配从文章头部中提取:文章标题、发文单位和发文,解析文章正文内容,采用模式匹配方法提取文章段落标题,提取划分段落。5.根据权利要求1所述的数据分析方法,其特征在于,所述文章为公文。6.一种数据分析存储介质,其特征在于,存储有计算机程序,所述计算机程序在被运行时执行包括如...

【专利技术属性】
技术研发人员:赵立王传熙罗建新陈颖华
申请(专利权)人:福建正孚软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1