【技术实现步骤摘要】
一种数据分析方法和存储介质
[0001]本专利技术涉及数据分析领域,尤其涉及一种能够进行事件提取的数据分析方法。
技术介绍
[0002]企业在经营过程中需要进行很多决策,特别重大决策、重要干部任免、重大项目安排和大额度资金的使用等,这些决策会形成很多会议记录、事项清单、决议文件,同时这些事项、决议会由各级组织执行落实,对于这些决策决定到执行、落实整个过程进行跟踪目前更也采用信息化系统提供的功能通过关系型数据库建立记录建的关联,或者还有某些聚类的算法形成各类的专题。与之对应于事件的提取目前也有一些结构化分析算法。但是无法满足进行准确事件提取的需求。
技术实现思路
[0003]因此,需要提供一种数据分析方法,能够满足准确有效地进行事件提取的需求。
[0004]为实现上述目的,专利技术人提供了一种数据分析方法,包括如下步骤:
[0005]对文章进行聚类,文章标题权重记为Δt,文章内容段落标题权重Δg(Δt>Δg>1),
[0006]对文章标题进行分词,得到标题词向量V
t
,每一个标题词向量的权重值为词频乘以Δt;
[0007]对文章段落标题进行分词,得到段落标题词向量V
g
,每一个段落标题词向量权重值为词频乘以Δg;
[0008]对文章其他内容进行分词,形成内容词向量V
c
,权重值为词频;
[0009]合并标题词向量V
t
,段落标题词向量V
g
...
【技术保护点】
【技术特征摘要】
1.一种数据分析方法,其特征在于,包括如下步骤:对文章进行聚类,文章标题权重记为Δt,文章内容段落标题权重Δg(Δt>Δg>1),对文章标题进行分词,得到标题词向量V
t
,每一个标题词向量的权重值为词频乘以Δt;对文章段落标题进行分词,得到段落标题词向量V
g
,每一个段落标题词向量权重值为词频乘以Δg;对文章其他内容进行分词,形成内容词向量V
c
,权重值为词频;合并标题词向量V
t
,段落标题词向量V
g
,内容词向量V
c
,得到文章的词向量,对所述文章的词向量,计算余弦相似度作为空间距离,再使用K
‑
means聚类算法对不同的文章数据进行聚类,得到文章聚类集合D={D1,D2,
…
,D
n
};对文章聚类集合进行事件提取:遍历所述文章聚类集合D={D1,D2,
…
,D
n
}中每个聚类的所有文章数据,对同属一个聚类的文章的文章标题采用TextRank算法,仅处理词性为名词和动词,得到最重要的n个词语集合K
t
;对所有同一个聚类的文章段落标题采用TextRank算法,仅处理词性为名词和动词,得到最重要的n个词语集合K
g
;对所有同一个聚类的文章其他内容采用TextRank算法,仅处理词性为名词和动词,得到最重要的n个词语集合K
c
;最终得到文章数据的事件模型。2.根据权利要求1所述的数据分析方法,其特征在于,还包括步骤,根据所述文章的词向量,计算余弦距离计算的方法,完成朴素贝叶斯分类器模型训练。3.根据权利要求1所述的数据分析方法,其特征在于,还包括步骤,根据所述事件模型对所有文章的所有段落进行分类,并反向遍历每个事件,根据对每个事件关联的段落形成事件脉络。4.根据权利要求1所述的数据分析方法,其特征在于,对文章进行聚类前还包括步骤,用正则表达式匹配从文章头部中提取:文章标题、发文单位和发文,解析文章正文内容,采用模式匹配方法提取文章段落标题,提取划分段落。5.根据权利要求1所述的数据分析方法,其特征在于,所述文章为公文。6.一种数据分析存储介质,其特征在于,存储有计算机程序,所述计算机程序在被运行时执行包括如...
【专利技术属性】
技术研发人员:赵立,王传熙,罗建新,陈颖华,
申请(专利权)人:福建正孚软件有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。