一种摘报文本生成方法、装置、服务器及可读存储介质制造方法及图纸

技术编号:26171159 阅读:58 留言:0更新日期:2020-10-31 13:42
本发明专利技术提供了一种摘报文本生成方法,包括:步骤一,获取数据源;步骤二,数据预处理;步骤三,聚类处理;步骤四,簇内长词合并和关键词提取;步骤五,词频统计;步骤六,摘报文本生成。本发明专利技术还提供了一种摘报文本生成装置,包括:依次连接的数据源获取模块、数据预处理模块、聚类处理模块、词语候选集获取模块、词频统计模块和摘报文本生成模块,总之,本发明专利技术是一种信息更加全面、效率更高、精准度更高的摘报文本生成方法、装置、服务器及可读存储介质,能够提高工作效率的同时且能够满足工作精度需求,能够让用户在有限的时间片段里,尽可能多且越准确地获取可靠信息,提升用户使用体验度,满足个性化阅读需求,具有重要的研究意义和使用价值。

【技术实现步骤摘要】
一种摘报文本生成方法、装置、服务器及可读存储介质
本专利技术涉及数据处理
,尤其是涉及一种摘报文本生成方法、装置、服务器及可读存储介质。
技术介绍
摘报,也称之为简报,顾名思义,就是简要的报告或简要的报道、它是一种汇报工作、反映问题、沟通情况、交流经验的非法定公文,是一种重要的信息载体。可以这样描述,摘报是一种概括性的报导,比如今天开会,开会过程中关于教育的有多少件,交通的有多少件,今天开会关注的热点话题是什么等,具有汇报性、交流性和指导性,且简短、灵活、快捷。简而言之,摘报具有简、精、快、新、实、活和连续性等特点。摘报是在不阅读全文的情况下,就能获得必要的信息,利用计算机将大量的文本进行处理,产生简短、灵活、快捷的内容,人们可通过阅读摘报来把握文本主要内容,这不仅大大节省时间,更提高阅读效率。但人工获取摘报的方法耗时又耗力,已经不能满足日益增长的信息需求,因此借助计算机进行文本处理的摘报生成方法应运而生。近年来,自动摘报获取、自动摘要获取、信息检索、信息过滤、机器识别等研究已成为了人们关注的热点。但是目前的摘报生成方法,主要是对整个数据集进行的,没有考虑到数据的分布,容易漏掉不同主题的热点信息,可能会漏掉某些部分的内容,造成提取的信息不够全面,不够准确,因此,亟待研究一种信息更加全面、效率更高、精准度更高的摘报文本生成方法,能够让用户在有限的时间片段里,尽可能越多且越准确地获取可靠信息,来满足人们的需求。应该注意,上面对技术背景的介绍只是为了方便对本专利技术的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些技术方案在本专利技术的技术背景部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
技术实现思路
本专利技术的目的在于提供一种信息更加全面、效率更高、精准度更高的摘报文本生成方法、装置、服务器及可读存储介质,能够大大提高工作效率的同时且能够满足工作精度需求,能够让用户在有限的时间片段里,尽可能越多且越准确地获取可靠信息,提升用户使用体验度,满足个性化阅读需求,具有重要的研究意义和使用价值。为实现上述目的,本专利技术提供了以下技术方案:本专利技术提供了一种摘报文本生成方法,包括:步骤一,获取数据源,抽取预设时间内的数据作为摘报文本生成的数据源;步骤二,数据预处理,对所述步骤一中的所述抽取的数据进行预处理,得到预处理后的数据;步骤三,聚类处理,对所述步骤二中获取的所述预处理后的数据进行聚类处理,得到聚类结果集;步骤四,簇内长词合并和关键词提取,对所述步骤三中得到的所述聚类结果集分别进行簇内长词合并和关键词提取,并分别得到长词候选集和关键词候选集,合并所述长词候选集和所述关键词候选集得到词语候选集;步骤五,词频统计,对所述步骤四中合并得到的所述词语候选集中的词语进行词频统计,按照预设筛选比例,形成摘报热点;步骤六,摘报文本生成,根据所述步骤五中得到的所述摘报热点,形成摘报文本。可选地,所述步骤二中的所述数据预处理为:第一,利用分词工具对所述步骤一中的所述抽取的数据进行分词处理,第二,对经过分词处理后的数据进行向量化处理,得到数据预处理后的结果。可选地,所述使用分词工具对所述抽取的数据进行分词处理进行切分时,利用自定义词典和网络公开的常用停用词库对所述抽取的数据进行切分,所述自定义词典为能够确定哪些词语是组合词语、不需要细粒度切分的词典;所述网络公开的常用停用词库包括百度停用词列表、四川大学机器智能实验室停用词库、哈工大停用词表,停用词库包含标点符号、语气词或数字。可选地,所述分词工具为HanLP、Jieba、THULAC或NLPIR。可选地,所述分词工具为Jieba,Jieba分词采用API,采用带词性的posseg进行切分。可选地,所述步骤三中对所述步骤二中获取的所述预处理后的数据进行K-Means聚类处理,同时根据DBI评价指标来形成最佳聚类结果集,对所述最佳聚类结果集分别进行簇内长词合并和关键提取。可选地,对所述最佳聚类结果集分别进行簇内长词合并包括:判断一个词语的相邻词语的词性,如果相邻词语的词性是名词、人名、地名、机构团体、其它专名、名动词、名形词或者方位词时,则进行拼接,得到合并长词;否则,不拼接。可选地,还包括对拼接后得到的所述合并长词进行剔除筛选:所述剔除筛选包括:通过停用词表对拼接后得到的所述合并长词进行过滤,得到过滤后的合并长词;求取所述拼接后得到的所述合并长词与所述过滤后的合并长词的交集;判断所述交集与所述步骤一中抽取的数据;如果所述交集与所述步骤一中抽取的数据匹配,则留下作为所述长词候选集,否则,舍弃所述交集。可选地,对所述步骤三中得到的所述聚类结果集使用TFIDF进行关键词提取,并得到关键词候选集。可选地,步骤六中还包括,对所述抽取的数据进行多维度统计,得到多维度统计结果,根据所述步骤五中得到的所述摘报热点、所述多维度统计结果与摘报模板,形成摘报文本。本专利技术还提供了一种摘报文本生成装置,所述摘报文本生成装置包括依次连接的数据源获取模块、数据预处理模块、聚类处理模块、词语候选集获取模块、词频统计模块和摘报文本生成模块;所述数据源获取模块用于抽取预设时间内的数据,并将所述抽取预设时间内的数据作为摘报文本生成的数据源;所述数据预处理模块用于对所述抽取的数据进行预处理,得到预处理后的数据;所述聚类处理模块用于对所述预处理后的数据进行聚类处理,得到聚类结果集;所述词语候选集获取模块包括对所述聚类结果集进行簇内长词合并的长词候选集获取模块和对所述聚类结果集进行关键词提取的关键词候选集获取模块,并分别得到长词候选集和关键词候选集,合并所述长词候选集和所述关键词候选集得到词语候选集;所述词频统计模块,用于对所述词语候选集中的词语进行词频统计,按照预设筛选比例,形成摘报热点;所述摘报文本生成模块,用于根据所述摘报热点,形成摘报文本。可选地,所述数据预处理模块包括利用分词工具对抽取的数据进行分词处理的分词处理模块和对经过所述分词处理模块分词处理后的数据进行向量化处理的向量化处理模块。可选地,还包括对抽取的数据进行多维度统计、以获得多维度统计结果的多维度统计模块和为摘报文本提供模板的摘报模板模块,所述摘报文本生成模块依据所述词频统计模块、所述多维度统计模块和所述摘报模板模块,形成摘报文本。本专利技术还提供了一种服务器,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时实现上述方法的步骤。本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。本专利技术提供的技术方案中,通过以下几个步骤来获得摘报文本,步骤一,获取数据源,抽取预设时间内的数据作为摘报文本生成的数据源;步骤二,数据预处理,对步骤一中的抽取的数据进行预本文档来自技高网
...

【技术保护点】
1.一种摘报文本生成方法,其特征在于,包括:/n步骤一,获取数据源,抽取预设时间内的数据作为摘报文本生成的数据源;/n步骤二,数据预处理,对所述步骤一中的所述抽取的数据进行预处理,得到预处理后的数据;/n步骤三,聚类处理,对所述步骤二中获取的所述预处理后的数据进行聚类处理,得到聚类结果集;/n步骤四,簇内长词合并和关键词提取,对所述步骤三中得到的所述聚类结果集分别进行簇内长词合并和关键词提取,并分别得到长词候选集和关键词候选集,合并所述长词候选集和所述关键词候选集得到词语候选集;/n步骤五,词频统计,对所述步骤四中合并得到的所述词语候选集中的词语进行词频统计,按照预设筛选比例,形成摘报热点;/n步骤六,摘报文本生成,根据所述步骤五中得到的所述摘报热点,形成摘报文本。/n

【技术特征摘要】
1.一种摘报文本生成方法,其特征在于,包括:
步骤一,获取数据源,抽取预设时间内的数据作为摘报文本生成的数据源;
步骤二,数据预处理,对所述步骤一中的所述抽取的数据进行预处理,得到预处理后的数据;
步骤三,聚类处理,对所述步骤二中获取的所述预处理后的数据进行聚类处理,得到聚类结果集;
步骤四,簇内长词合并和关键词提取,对所述步骤三中得到的所述聚类结果集分别进行簇内长词合并和关键词提取,并分别得到长词候选集和关键词候选集,合并所述长词候选集和所述关键词候选集得到词语候选集;
步骤五,词频统计,对所述步骤四中合并得到的所述词语候选集中的词语进行词频统计,按照预设筛选比例,形成摘报热点;
步骤六,摘报文本生成,根据所述步骤五中得到的所述摘报热点,形成摘报文本。


2.根据权利要求1所述的摘报文本生成方法,其特征在于,所述步骤二中的所述数据预处理为:第一,利用分词工具对所述步骤一中的所述抽取的数据进行分词处理,第二,对经过分词处理后的数据进行向量化处理,得到数据预处理后的结果。


3.根据权利要求2所述的摘报文本生成方法,其特征在于,所述使用分词工具对所述抽取的数据进行分词处理进行切分时,利用自定义词典和网络公开的常用停用词库对所述抽取的数据进行切分,所述自定义词典为能够确定哪些词语是组合词语、不需要细粒度切分的词典;所述网络公开的常用停用词库包括百度停用词列表、四川大学机器智能实验室停用词库、哈工大停用词表,停用词库包含标点符号、语气词或数字。


4.根据权利要求2所述的摘报文本生成方法,其特征在于,所述分词工具为HanLP、Jieba、THULAC或NLPIR。


5.根据权利要求4所述的摘报文本生成方法,其特征在于,所述分词工具为Jieba,Jieba分词采用API,采用带词性的posseg进行切分。


6.根据权利要求1所述的摘报文本生成方法,其特征在于,所述步骤三中对所述步骤二中获取的所述预处理后的数据进行K-Means聚类处理,同时根据DBI评价指标来形成最佳聚类结果集,对所述最佳聚类结果集分别进行簇内长词合并和关键提取。


7.根据权利要求6所述的摘报文本生成方法,其特征在于,对所述最佳聚类结果集分别进行簇内长词合并包括:
判断一个词语的相邻词语的词性,
如果相邻词语的词性是名词、人名、地名、机构团体、其它专名、名动词、名形词或者方位词时,则进行拼接,得到合并长词;
否则,不拼接。


8.根据权利要求7所述的摘报文本生成方法,其特征在于,还包括对拼接后得到的所述合并长词进行剔除筛选:
所述剔除筛选包括:
通过停用词表对拼接后得到的所述合并长词进行过滤,得到过滤后的合并长词;
求取所述拼接后得到的所述合并长词与所述过滤后的合并长词的交集...

【专利技术属性】
技术研发人员:宋灿灿左琦张佳琪王更新马倩云刘彤杨杰
申请(专利权)人:北京市计算中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1