一种摘报文本生成方法、装置、服务器及可读存储介质制造方法及图纸

技术编号：26171159 阅读：60 留言：0更新日期：2020-10-31 13:42

本发明专利技术提供了一种摘报文本生成方法，包括：步骤一，获取数据源；步骤二，数据预处理；步骤三，聚类处理；步骤四，簇内长词合并和关键词提取；步骤五，词频统计；步骤六，摘报文本生成。本发明专利技术还提供了一种摘报文本生成装置，包括：依次连接的数据源获取模块、数据预处理模块、聚类处理模块、词语候选集获取模块、词频统计模块和摘报文本生成模块，总之，本发明专利技术是一种信息更加全面、效率更高、精准度更高的摘报文本生成方法、装置、服务器及可读存储介质，能够提高工作效率的同时且能够满足工作精度需求，能够让用户在有限的时间片段里，尽可能多且越准确地获取可靠信息，提升用户使用体验度，满足个性化阅读需求，具有重要的研究意义和使用价值。

全部详细技术资料下载

【技术实现步骤摘要】
一种摘报文本生成方法、装置、服务器及可读存储介质
本专利技术涉及数据处理
，尤其是涉及一种摘报文本生成方法、装置、服务器及可读存储介质。
技术介绍
摘报，也称之为简报，顾名思义，就是简要的报告或简要的报道、它是一种汇报工作、反映问题、沟通情况、交流经验的非法定公文，是一种重要的信息载体。可以这样描述，摘报是一种概括性的报导，比如今天开会，开会过程中关于教育的有多少件，交通的有多少件，今天开会关注的热点话题是什么等，具有汇报性、交流性和指导性，且简短、灵活、快捷。简而言之，摘报具有简、精、快、新、实、活和连续性等特点。摘报是在不阅读全文的情况下，就能获得必要的信息，利用计算机将大量的文本进行处理，产生简短、灵活、快捷的内容，人们可通过阅读摘报来把握文本主要内容，这不仅大大节省时间，更提高阅读效率。但人工获取摘报的方法耗时又耗力，已经不能满足日益增长的信息需求，因此借助计算机进行文本处理的摘报生成方法应运而生。近年来，自动摘报获取、自动摘要获取、信息检索、信息过滤、机器识别等研究已成为了人们关注的热点。但是目前的摘报生成方法，主要是对整个数据集进行的，没有考虑到数据的分布，容易漏掉不同主题的热点信息，可能会漏掉某些部分的内容，造成提取的信息不够全面，不够准确，因此，亟待研究一种信息更加全面、效率更高、精准度更高的摘报文本生成方法，能够让用户在有限的时间片段里，尽可能越多且越准确地获取可靠信息，来满足人们的需求。应该注意，上面对技术背景的介绍只是为了方便对本专利技术的技术方案进行清楚、完整的说...

【技术保护点】
1.一种摘报文本生成方法，其特征在于，包括：/n步骤一，获取数据源，抽取预设时间内的数据作为摘报文本生成的数据源；/n步骤二，数据预处理，对所述步骤一中的所述抽取的数据进行预处理，得到预处理后的数据；/n步骤三，聚类处理，对所述步骤二中获取的所述预处理后的数据进行聚类处理，得到聚类结果集；/n步骤四，簇内长词合并和关键词提取，对所述步骤三中得到的所述聚类结果集分别进行簇内长词合并和关键词提取，并分别得到长词候选集和关键词候选集，合并所述长词候选集和所述关键词候选集得到词语候选集；/n步骤五，词频统计，对所述步骤四中合并得到的所述词语候选集中的词语进行词频统计，按照预设筛选比例，形成摘报热点；/n步骤六，摘报文本生成，根据所述步骤五中得到的所述摘报热点，形成摘报文本。/n

【技术特征摘要】
1.一种摘报文本生成方法，其特征在于，包括：
步骤一，获取数据源，抽取预设时间内的数据作为摘报文本生成的数据源；
步骤二，数据预处理，对所述步骤一中的所述抽取的数据进行预处理，得到预处理后的数据；
步骤三，聚类处理，对所述步骤二中获取的所述预处理后的数据进行聚类处理，得到聚类结果集；
步骤四，簇内长词合并和关键词提取，对所述步骤三中得到的所述聚类结果集分别进行簇内长词合并和关键词提取，并分别得到长词候选集和关键词候选集，合并所述长词候选集和所述关键词候选集得到词语候选集；
步骤五，词频统计，对所述步骤四中合并得到的所述词语候选集中的词语进行词频统计，按照预设筛选比例，形成摘报热点；
步骤六，摘报文本生成，根据所述步骤五中得到的所述摘报热点，形成摘报文本。

2.根据权利要求1所述的摘报文本生成方法，其特征在于，所述步骤二中的所述数据预处理为：第一，利用分词工具对所述步骤一中的所述抽取的数据进行分词处理，第二，对经过分词处理后的数据进行向量化处理，得到数据预处理后的结果。

3.根据权利要求2所述的摘报文本生成方法，其特征在于，所述使用分词工具对所述抽取的数据进行分词处理进行切分时，利用自定义词典和网络公开的常用停用词库对所述抽取的数据进行切分，所述自定义词典为能够确定哪些词语是组合词语、不需要细粒度切分的词典；所述网络公开的常用停用词库包括百度停用词列表、四川大学机器智能实验室停用词库、哈工大停用词表，停用词库包含标点符号、语气词或数字。

4.根据权利要求2所述的摘报文本生成方法，其特征在于，所述分词工具为HanLP、Jieba、THULAC或NLPIR。

5.根据权利要求4所述的摘报文本生成方法，其特征在于，所述分词工具为Jieba，Jieba分词采用API，采用带词性的posseg进行切分。

6.根据权利要求1所述的摘报文本生成方法，其特征在于，所述步骤三中对所述步骤二中获取的所述预处理后的数据进行K-Means聚类处理，同时根据DBI评价指标来形成最佳聚类结果集，对所述最佳聚类结果集分别进行簇内长词合并和关键提取。

7.根据权利要求6所述的摘报文本生成方法，其特征在于，对所述最佳聚类结果集分别进行簇内长词合并包括：
判断一个词语的相邻词语的词性，
如果相邻词语的词性是名词、人名、地名、机构团体、其它专名、名动词、名形词或者方位词时，则进行拼接，得到合并长词；
否则，不拼接。

8.根据权利要求7所述的摘报文本生成方法，其特征在于，还包括对拼接后得到的所述合并长词进行剔除筛选：
所述剔除筛选包括：
通过停用词表对拼接后得到的所述合并长词进行过滤，得到过滤后的合并长词；
求取所述拼接后得到的所述合并长词与所述过滤后的合并长词的交集...

【专利技术属性】
技术研发人员：宋灿灿，左琦，张佳琪，王更新，马倩云，刘彤，杨杰，
申请(专利权)人：北京市计算中心，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人