一种多篇文档重点信息提取方法技术

技术编号：28420094 阅读：29 留言：0更新日期：2021-05-11 18:27

本发明专利技术涉及文档信息处理领域，具体涉及一种多篇文档重点信息提取方法。包括以下步骤：S1、构建学习模型，通过神经网络Seq2Seq框架对大规模语料进行学习，得到模型；S2、输入选定文档，将所需处理的文档输入S1中得到的模型中，并输出相应的主题句；S3、生成重点信息，通过系统分析，对S2中主题句进行合理的组织，提炼得到多篇文档重点信息总结论述；S4、评价分析，对生成的多篇文档重点信息总结进行评价，判定是否符合需要。本发明专利技术设计巧妙，通过计算机辅助操作人员对多篇文档进行处理，有效提高文档阅读效率，适合广泛推广使用。

全部详细技术资料下载

【技术实现步骤摘要】
一种多篇文档重点信息提取方法
本专利技术涉及文档信息处理领域，具体涉及一种多篇文档重点信息提取方法。
技术介绍
随着信息时代的发展，网络飞速发展的同时也导致网络文章呈爆炸式增长，互联网已经成为了人们发布信息，获取信息的主要渠道，然而，网络在给人们提供丰富信息的同时，也带来了信息过载方面的问题。如何从大量的新闻文档中提取重要的信息，即从一篇或多篇长篇大论的文档中提取出重要信息，已经成为当下迫切需要解决的一个问题。
技术实现思路
针对上述技术问题，本专利技术提供了一种多篇文档重点信息提取方法，利用深度学习神经网络Seq2Seq框架构建模型并进行处理，可同时对多篇电子文档快速地浓缩、提炼，使用户快速获取重要文档信息，本专利技术采用的技术方案如下：一种多篇文档重点信息提取方法，其特征在于：包括以下步骤：S1、构建学习模型，通过神经网络Seq2Seq框架对大规模语料进行学习，得到模型；S2、输入选定文档，将所需处理的文档输入S1中得到的模型中，并输出相应的主题句；S3、生成重点信息，通过系统分析，对S2中主题句进行合理的组织，提炼得到多篇文档重点信息总结论述；S4、评价分析，对生成的多篇文档重点信息总结进行评价，判定是否符合需要。S1步骤中，构建学习模型过程中引入注意力机制。所述学习模型基于深度学习神经网络Seq2Seq框架构建，包括输入端与输出端，其中输入端用于输入多篇文档并将输入的原文档编码成多个表征符，输出端则从所有的表征符中提取重要的信息并进行...

【技术保护点】
1.一种多篇文档重点信息提取方法，其特征在于：包括以下步骤：/nS1、构建学习模型，通过神经网络Seq2Seq框架对大规模语料进行学习，得到模型；/nS2、输入选定文档，将所需处理的文档输入S1中得到的模型中，并输出相应的主题句；/nS3、生成重点信息，通过系统分析，对S2中主题句进行合理的组织，提炼得到多篇文档重点信息总结论述；/nS4、评价分析，对生成的多篇文档重点信息总结进行评价，判定是否符合需要。/n

【技术特征摘要】
1.一种多篇文档重点信息提取方法，其特征在于：包括以下步骤：
S1、构建学习模型，通过神经网络Seq2Seq框架对大规模语料进行学习，得到模型；
S2、输入选定文档，将所需处理的文档输入S1中得到的模型中，并输出相应的主题句；
S3、生成重点信息，通过系统分析，对S2中主题句进行合理的组织，提炼得到多篇文档重点信息总结论述；
S4、评价分析，对生成的多篇文档重点信息总结进行评价，判定是否符合需要。

2.根据权利要求1所述的一种多篇文档重点信息提取方法，其特征在于：S1步骤中，构建学习模型过程中引入注意力机制。

3.根据权利要求...

【专利技术属性】
技术研发人员：王小华，焦璐璐，易传润，王宇琦，韩锋，
申请(专利权)人：山西三友和智慧信息技术股份有限公司，
类型：发明
国别省市：山西;14

全部详细技术资料下载我是这个专利的主人