一种演讲摘要生成方法及装置,包括:对内容笔记、演讲幻灯片进行分析生成演讲大纲;利用演讲大纲和相关阅读材料生成扩展演讲大纲;对扩展演讲大纲分析得到与演讲知识内容相关的演讲关键字并找到演讲关键字在知识库中对应的解释条目,生成最终摘要。该方法通过对多方面的内容如内容笔记、演讲幻灯片和扩展阅读进行知识整合和扩展得到演讲摘要,并利用外部的知识库得到演讲关键字的精确解释。得到演讲内容的精确、结构化的摘要。本发明专利技术还公开了一种基于演讲幻灯片、内容笔记和扩展阅读的演讲摘要生成装置,包括演讲大纲生成模块、扩展演讲大纲生成模块和演讲关键字实体链接模块。
【技术实现步骤摘要】
本专利技术涉及的是一种文字处理领域的技术,具体是一种基于演讲幻灯片、内容笔记和扩展阅读的演讲摘要生成方法及装置。
技术介绍
在当今信息爆炸的时代,信息技术的进步和普及使得人们每天产生海量的数据,这些数据的数量远远超过人们的学习阅读范围。为了帮助人们更高效的获取知识,自然语言处理技术能有效自动处理海量文本,并提取出其中用户可能最关心的部分。在生活中,我们每天通过讲座、课堂等渠道听取大量的演讲,有效总结这些演讲的内容能方便人们进行回顾和复习,找到演讲的重点,并进行知识的结构化整理。而利用自然语言理解技术可高效准确的理解分析演讲幻灯片,内容笔记和扩展阅读材料,并对他们进行知识整合和扩展,很好的达到整理知识的目的。经过现有的技术检索发现,中国专利文献号CN103034657B,公开了一种“文档摘要生成方法和装置”,该方法涉及一种根据文档内容自动进行摘要提取的方法和装置,能够根据文档的内容自动实现信息的整理,方便用户快速的获取文档中有效的知识。但该方法仅包括对于单文本的摘要生成,不包括对于多种文档的内容整理,不能有效的整合来自多个文档的信息。进一步检索发现,中国专利文献号CN 101008941 A,公开了一种“多文档自动摘要的逐次主轴筛选法”,该系统是对QR转轴法的改进,提出一种多文档自动摘要的方法,求解主轴并逐步去除冗余信息,形成摘要。但该系统不根据不同文档的重要程度生成摘要,如演讲幻灯片是对于演讲内容的高度抽象,而扩展阅读材料则是其中一些知识的扩展,摘要应侧重于幻灯片中的内容。另外,该方法仅针对纯文本进行摘要,不能有效利用演讲幻灯片中的结构信息来得到演讲内容结构的有效表示。
技术实现思路
本专利技术针对现有技术存在的上述不足,提出一种演讲摘要生成方法及装置,通过对多方面的内容如内容笔记、演讲幻灯片和扩展阅读进行知识整合和扩展得到演讲摘要,并利用外部的知识库得到演讲关键字的精确解释。得到演讲内容的精确、结构化的摘要。本专利技术是通过以下技术方案实现的:本专利技术涉及一种演讲摘要生成方法,包括:步骤1)对内容笔记、演讲幻灯片进行分析生成演讲大纲;步骤2)利用演讲大纲和相关阅读材料生成扩展演讲大纲;步骤3)对扩展演讲大纲分析得到与演讲知识内容相关的演讲关键字并找到演讲关键字在知识库中对应的解释条目,生成最终摘要。所述的演讲大纲的生成为解析内容笔记和演讲幻灯片中与演讲最相关的部分,并对两部分信息进行融合,生成演讲大纲。所述的扩展演讲大纲的生成为分析得到相关阅读材料与演讲大纲中知识内容的匹配,根据相关阅读材料补全演讲大纲得到扩展演讲大纲。所述的演讲关键字为与演讲知识内容的概念。本专利技术涉及一种实现上述方法的基于交互式输入的数据搜索装置,包括:用于对内容笔记、演讲幻灯片进行分析生成演讲大纲的演讲大纲生成模块、根据演讲大纲和相关阅读材料生成扩展演讲大纲的扩展演讲大纲生成模块以及用于对扩展演讲大纲分析得到与演讲知识内容相关的演讲关键字并找到演讲关键字在知识库中对应的解释条目,生成最终摘要的演讲关键字实体链接模块。所述的演讲大纲生成模块用于解析内容笔记和演讲幻灯片中与演讲最相关的部分,并对两部分信息进行融合,生成演讲大纲。所述的扩展演讲大纲生成模块用于分析得到相关阅读材料与演讲大纲中知识内容的匹配,根据相关阅读材料补全演讲大纲得到扩展演讲大纲。所述的演讲关键字实体链接模块提取的关键字为与演讲知识内容的概念。技术效果与现有技术相比,本专利技术对多方面的内容如内容笔记、演讲幻灯片和扩展阅读进行知识整合和扩展得到演讲摘要,并利用外部的知识库得到演讲关键字的精确解释。得到演讲内容的精确、结构化的摘要。附图说明图1为本专利技术方法流程图;图2是本专利技术装置结构示意图。具体实施方式实施例1本实施例包括以下步骤:101、对内容笔记、演讲幻灯片进行分析生成演讲大纲;在本专利技术实施例中,演讲大纲的生成为解析内容笔记和演讲幻灯片中与演讲最相关的部分,并对两部分信息进行融合,生成演讲大纲。102、利用演讲大纲和相关阅读材料生成扩展演讲大纲;在本专利技术实施例中,扩展演讲大纲的生成为分析得到相关阅读材料与演讲大纲中知识内容的匹配,根据相关阅读材料补全演讲大纲得到扩展演讲大纲。103、对扩展演讲大纲分析得到与演讲知识内容相关的演讲关键字并找到演讲关键字在知识库中对应的解释条目,生成最终摘要。在本专利技术实施例中,演讲关键字实体链接模块提取的关键字为与演讲知识内容的概念。实施例2如图2所示,为本专利技术提供的基于演讲幻灯片、内容笔记和扩展阅读的演讲摘要生成装置结构示意图,该装置包括:演讲大纲生成模块21、扩展演讲大纲生成模块22和演讲关键字实体链接模块23。所述的演讲大纲生成模块21用于利用内容笔记、演讲幻灯片生成演讲大纲,其中:演讲大纲生成模块用于解析内容笔记和演讲幻灯片中与演讲最相关的部分,并对两部分信息进行融合,生成演讲大纲。具体地,计算演讲幻灯片中每个内容要点的句向量跟内容笔记中每句话子句句向量的点积,若点积大于一定阈值,则把内容笔记中的此句话放在相应要点之后作为解释。当内容笔记为:“对于很多机器学习算法,包括线性回归、逻辑回归、神经网络等等,算法的实现都是通过得出某个代价函数或者某个最优化的目标来实现的,然后使用梯度下降这样的方法来作为优化算法求得代价函数的最小值。当训练集较大时,批量梯度下降算法则显得计算量非常大。在本次课程中,我想介绍一种跟批量梯度下降不同的方法:随机梯度下降。”,演讲幻灯片中的内容为批量梯度下降算法优化常用算法计算量大随机梯度下降适合大量数据若阈值为0.7,内容要点“计算量大”与内容笔记中子句“计算量非常大”的句向量的点积为0.9,内容要点“优化常用算法”与“优化算法”的句向量点积为0.8,类似的可以得到其他内容要点与子句的匹配,则生成的演讲大纲为批量梯度下降算法:当训练集较大时,批量梯度下降算法则显得计算量非常大。优化常用算法:对于很多机器学习算法,包括线性回归、逻辑回归、神经网络等等,算法的实现都是通过得出某个代价函数或者某个最优化的目标来实现的,然后使用梯度下降这样
的方法来作为优化算法求得代价函数的最小值。计算量大:当我们的训练集较大时,批量梯度下降算法则显得计算量非常大。随机梯度下降:在本次课程中,我想介绍一种跟批量梯度下降不同的方法:随机梯度下降。适合大量数据所述的扩展演讲大纲生成模块22用于利用演讲大纲和相关阅读材料生成扩展演讲大纲,其中:扩展演讲大纲生成模块用于分析得到相关阅读材料与演讲大纲中知识内容的匹配,根据相关阅读材料补全演讲大纲得到扩展演讲大纲。具体地,计算演讲大纲中每个内容要点的句向量跟相关阅读材料中每句话子句句向量的距离,若点积大于一定阈值,则把相关阅读材料中的此句话放在相应要点之后作为解释。例如相关阅读材料为:“梯度下降(GD)是最小化风险函数、损失函数的一种常用方法,随机梯度下降和批量梯度下降是两种迭代求解思路。批量梯度下降---最小化所有训练样本的损失函数,使得最终求解的是全局的最优解,即求解的参数是使得风险函数最小。随机梯度下降---最小化每条样本的损失函数,虽然不是每次迭代得到的损失函数都向着全局最优方向,但是大的整体的方向是向全局最优解的,最终的结果往往是在全局最优解附近。”若阈值为0.7,内容要点本文档来自技高网...
【技术保护点】
一种演讲摘要生成方法,其特征在于,包括:步骤1)对内容笔记、演讲幻灯片进行分析生成演讲大纲;步骤2)利用演讲大纲和相关阅读材料生成扩展演讲大纲;步骤3)对扩展演讲大纲分析得到与演讲知识内容相关的演讲关键字并找到演讲关键字在知识库中对应的解释条目,生成最终摘要。
【技术特征摘要】
1.一种演讲摘要生成方法,其特征在于,包括:步骤1)对内容笔记、演讲幻灯片进行分析生成演讲大纲;步骤2)利用演讲大纲和相关阅读材料生成扩展演讲大纲;步骤3)对扩展演讲大纲分析得到与演讲知识内容相关的演讲关键字并找到演讲关键字在知识库中对应的解释条目,生成最终摘要。2.根据权利要求1所述的方法,其特征是,所述的演讲大纲的生成为解析内容笔记和演讲幻灯片中与演讲最相关的部分,并对两部分信息进行融合,生成演讲大纲。3.根据权利要求1所述的方法,其特征是,所述的扩展演讲大纲的生成为分析得到相关阅读材料与演讲大纲中知识内容的匹配,根据相关阅读材料补全演讲大纲得到扩展演讲大纲。4.根据权利要求1所述的方法,其特征是,所述的演讲关键字为与演讲知识内容的概念。5.一种实现上述任一权利要求所述方法的装置,其特...
【专利技术属性】
技术研发人员:俞凯,谢其哲,吴学阳,李文博,郭运奇,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。