一种智能文本挖掘分析系统技术方案

技术编号:36788300 阅读:22 留言:0更新日期:2023-03-08 22:34
本发明专利技术公开了一种智能文本挖掘分析系统,包括自然语言处理模块、新闻稿件原创识别模块、传播分析模块和主题检测模块,自然语言处理模块,用于供词性标注、命名实体识别、文本分类、情感分析、实体识别、摘要提取及其他文本分析组件。本发明专利技术的有益之处在于:通过计算机手段进行信息提取、信息要素计算等,以便辅助人们进行信息分析,实现自动化文本分类,能根据已知文本类别,生成分类器,并确定未知类别的文本的具体类别,能够对新闻、微博、微信等文本内容的分类。内容的分类。

【技术实现步骤摘要】
一种智能文本挖掘分析系统


[0001]本专利技术涉及智能媒体应用
,具体是一种智能文本挖掘分析系统。

技术介绍

[0002]智能媒体时代,面对互联网每日爆发的大量信息,新闻工作者在日常工作中如何准确定位到有价值信息,进行快速高效挖掘分析文本及选题策划来深入报道,成为一个非常棘手的问题。因此,针对上述问题提出一种智能文本挖掘分析系统。

技术实现思路

[0003]本专利技术的目的就在于为了解决上述问题而提供一种智能文本挖掘分析系统。
[0004]本专利技术通过以下技术方案来实现上述目的,一种智能文本挖掘分析系统,包括自然语言处理模块、新闻稿件原创识别模块、传播分析模块和主题检测模块,自然语言处理模块,用于供词性标注、命名实体识别、文本分类、情感分析、实体识别、摘要提取及其他文本分析组件;
[0005]新闻稿件原创识别模块,基于标注语料的特征提取,将特征词进行向量化,利用余弦相似度识别文章是否原创;
[0006]传播分析模型,基于原创识别基础,对原创稿建进行传播分析,结合新闻领域的行业现状,分为新闻类传播分析模型和新浪微博传播分析模型;
[0007]主题检测模块,用于在海量文本中挖掘存在的主题并输出主题的权重。
[0008]优选的,所述文本分类包含依存句法和文本聚类,且文本分类基于CNN模型实现,利用随机梯度下降(SGD)进行参数训练,将句子级别的篇章理解上升到从段落级别的理解,共16个分类。
[0009]优选的,所述依存句法基于CRF的句法依存分析模型,确定句子的句法结构或者句子中间词汇之间的依存关系。
[0010]优选的,所述CRF的句法依存分析模型分为训练集和测试集数据预处理、语料特征生成、模型训练集预测三大部分,最终通过模型预测得到正确的预测结果。
[0011]优选的,所述文本聚类包括长文本聚类模型和短文本聚类模型,具体如下:
[0012](1)长文本聚类模型基于single

pass的算法逻辑,通过数据分词,计算特征词权重,提取特征词,生成特征向量,相似度聚类得到聚类结果,通过聚类,大量文档数据可以得到差异的话题;
[0013](2)短文本聚类模型在长文本的基础上,在特征词的选取和数量上进行差异化的设定,同时结合情感分类模型进行聚类分析。
[0014]优选的,所述新闻类传播分析模型的分析流程如下:
[0015]1、按照新闻的有效性,计算从发稿之后一段时间范围的传播路径;
[0016]2、通过分类过滤缩减计算空间范围;
[0017]3、分词并提取TF

IDF值,取TopN聚合;
[0018]4、通过文本相似度算法二次过滤;
[0019]5、结合来源关系、发布时间等纬度构建转发关系。
[0020]优选的,所述新浪微博传播分析模型的分析流程如下:
[0021]1、计算发博之后一段时间范围的传播路径;
[0022]2、通过数据治理阶段构建的父子关系;
[0023]3、进行分组构建微博博文时序序列,同时考虑无父子关系但明确有@关系;
[0024]4、构建转发关系。
[0025]优选的,所述传播分析模块采用相似度算法,将最大公共子串和最大公共子序列进行文本比对,据此判断文本是否相似。
[0026]本专利技术的有益效果是:通过计算机手段进行信息提取、信息要素计算等,以便辅助人们进行信息分析,实现自动化文本分类,能根据已知文本类别,生成分类器,并确定未知类别的文本的具体类别,能够对新闻、微博、微信等文本内容的分类。
具体实施方式
[0027]下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0028]实施例一
[0029]一种智能文本挖掘分析系统,包括自然语言处理模块、新闻稿件原创识别模块、传播分析模块和主题检测模块,自然语言处理模块,用于供词性标注、命名实体识别、文本分类、情感分析、实体识别、摘要提取及其他文本分析组件;
[0030]新闻稿件原创识别模块,基于标注语料的特征提取,将特征词进行向量化,利用余弦相似度识别文章是否原创;
[0031]传播分析模型,基于原创识别基础,对原创稿建进行传播分析,结合新闻领域的行业现状,分为新闻类传播分析模型和新浪微博传播分析模型;
[0032]主题检测模块,用于在海量文本中挖掘存在的主题并输出主题的权重。
[0033]进一步地,所述文本分类包含依存句法和文本聚类,且文本分类基于CNN模型实现,利用随机梯度下降(SGD)进行参数训练,将句子级别的篇章理解上升到从段落级别的理解,共16个分类。
[0034]进一步地,所述依存句法基于CRF的句法依存分析模型,确定句子的句法结构或者句子中间词汇之间的依存关系。
[0035]进一步地,所述CRF的句法依存分析模型分为训练集和测试集数据预处理、语料特征生成、模型训练集预测三大部分,最终通过模型预测得到正确的预测结果。
[0036]进一步地,所述文本聚类包括长文本聚类模型和短文本聚类模型,具体如下:
[0037](1)长文本聚类模型基于single

pass的算法逻辑,通过数据分词,计算特征词权重,提取特征词,生成特征向量,相似度聚类得到聚类结果,通过聚类,大量文档数据可以得到差异的话题;
[0038](2)短文本聚类模型在长文本的基础上,在特征词的选取和数量上进行差异化的设定,同时结合情感分类模型进行聚类分析。
[0039]该处的有益之处在于:通过计算机手段进行信息提取、信息要素计算等,以便辅助人们进行信息分析。
[0040]实施例二
[0041]所述新闻类传播分析模型的分析流程如下:
[0042]1、按照新闻的有效性,计算从发稿之后一段时间范围的传播路径;
[0043]2、通过分类过滤缩减计算空间范围;
[0044]3、分词并提取TF

IDF值,取TopN聚合;
[0045]4、通过文本相似度算法二次过滤;
[0046]5、结合来源关系、发布时间等纬度构建转发关系。
[0047]进一步地,所述新浪微博传播分析模型的分析流程如下:
[0048]1、计算发博之后一段时间范围的传播路径;
[0049]2、通过数据治理阶段构建的父子关系;
[0050]3、进行分组构建微博博文时序序列,同时考虑无父子关系但明确有@关系;
[0051]4、构建转发关系。
[0052]进一步地,所述传播分析模块采用相似度算法,将最大公共子串和最大公共子序列进行文本比对,据此判断文本是否相似。
[0053]该处的有益之处在于:实现自动化文本分类,能根据已知文本类别,生成分类器,并确定未知类别的文本的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能文本挖掘分析系统,其特征在于:包括自然语言处理模块、新闻稿件原创识别模块、传播分析模块和主题检测模块,自然语言处理模块,用于供词性标注、命名实体识别、文本分类、情感分析、实体识别、摘要提取及其他文本分析组件;新闻稿件原创识别模块,基于标注语料的特征提取,将特征词进行向量化,利用余弦相似度识别文章是否原创;传播分析模型,基于原创识别基础,对原创稿建进行传播分析,结合新闻领域的行业现状,分为新闻类传播分析模型和新浪微博传播分析模型;主题检测模块,用于在海量文本中挖掘存在的主题并输出主题的权重。2.根据权利要求1所述的一种智能文本挖掘分析系统,其特征在于:所述文本分类包含依存句法和文本聚类,且文本分类基于CNN模型实现,利用随机梯度下降(SGD)进行参数训练,将句子级别的篇章理解上升到从段落级别的理解,共16个分类。3.根据权利要求2所述的一种智能文本挖掘分析系统,其特征在于:所述依存句法基于CRF的句法依存分析模型,确定句子的句法结构或者句子中间词汇之间的依存关系。4.根据权利要求3所述的一种智能文本挖掘分析系统,其特征在于:所述CRF的句法依存分析模型分为训练集和测试集数据预处理、语料特征生成、模型训练集预测三大部分,最终通过模型预测得到正确的预测结果。5.根据权利要求2所述的一种智能文本挖掘分析系统,其特征在于:所述文本聚...

【专利技术属性】
技术研发人员:刘帆王凤美杜宏任鼎徐群浩
申请(专利权)人:太极计算机股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1