当前位置: 首页 > 专利查询>应豪专利>正文

一种在长文本中结合语义推断的主题提取方法及系统技术方案

技术编号:24576524 阅读:113 留言:0更新日期:2020-06-21 00:27
本发明专利技术提供的主题提取方法,对待处理长文本进行预处理获得若干个文字单元,对所述文字单元进行词频统计,以获得文档‑词汇权重矩阵;根据该待处理长文本中文字单元的上下文结构特征构建概念词典;利用所述概念词典对文档‑词汇权重矩阵进行一次降维,使得文档‑词汇权重矩阵降维至文档‑概念权重矩阵;对文档‑概念权重矩阵进行二次降维,使得文档‑概念权重矩阵降维至文档‑主题权重矩阵;根据文档‑主题权重矩阵确定待处理长文本的主题,以及对主题的重视程度。该方法能够应用于长文本中,提高长文本主题识别的精度。

A topic extraction method and system based on semantic inference in long text

【技术实现步骤摘要】
一种在长文本中结合语义推断的主题提取方法及系统
本专利技术属于
,具体涉及一种在长文本中结合语义推断的主题提取方法及系统。
技术介绍
常见的长文本包括商务文本,其是在特定商业场景下,专业人员为了特定的工作目标撰写的工作文本(如:招/投标书、信贷报告、企业社会责任报告等)。这类商务文本是企业在生产经营管理活动中产生的,按照严格的、既定的生效程序和规范的格式制定的,具有传递信息和记录作用的载体。它是企业经营运作的信息载体,是贯彻企业执行力的重要保障性因素。商务文本的特点为:属于长文本,内容多;明确的撰写目的,同一类商务文本内容相似度高;专业人员撰写,整体格式标准化;重复的词汇较多。自动化文本分析是一系列旨在量化文本信息的分析过程。分析过程中,人们会利用自然语言处理,信息检索,文本挖掘和机器学习中开发的技术。自动化文本分析最常见的用途是将文本内容分配给概念类别。归类后,可以基于归类的总数对文本进行量化。例如,为了调查风险披露的影响,可以对公司年度报告中披露的风险内容进行类型分类。在此示例中,目标是将每个年度报告的每个单元(词组或句子)分类为若干种风险类型,并计算各个类别的权重以量化每个文档。所以现有的文本分析方法往往是依据文档级别的词和词的共现来推测潜在的主题。当被用用于分析商务文本中的长文本时,识别出来的主题基本上都是高频出现的重复词,识别精度低,无法直观理解分析结果中各主题的含义。
技术实现思路
针对现有技术中的缺陷,本专利技术提供一种在长文本中结合语义推断的主题提取方法及系统,能够应用于长文本中,提高长文本主题识别的精度。第一方面,一种在长文本中结合语义推断的主题提取方法,包括以下步骤:接收待处理长文本,对待处理长文本进行预处理获得若干个文字单元,对所述文字单元进行词频统计,以获得文档-词汇权重矩阵;根据该待处理长文本中文字单元的上下文结构特征构建概念词典;利用所述概念词典对所述文档-词汇权重矩阵进行一次降维,使得文档-词汇权重矩阵降维至文档-概念权重矩阵;对所述文档-概念权重矩阵进行二次降维,使得文档-概念权重矩阵降维至文档-主题权重矩阵;根据所述文档-主题权重矩阵确定待处理长文本的主题,以及对主题的重视程度。优选地,所述对待处理长文本进行预处理获得若干个文字单元,对所述文字单元进行词频统计,以获得文档-词汇权重矩阵具体包括:根据预设的文本格式删除待处理长文本中非正文部分,以获得待处理长文本的正文部分;使用预设的分词词库对该正文部分进行分词,获得该正文部分包含的若干个文字单元;运用TF-IDF模型计算待处理文本的正文部分与不同文字单元的相似性,获得文档-词汇权重矩阵。优选地,所述根据该待处理长文本中文字单元的上下文结构特征构建概念词典具体包括:将所述待处理长文本中正文部分进行分词,去除中文、英文以及数字之外的符号,获得由若干个文字单元组成的正文文字单元序列;运用word2vec方法,对所述文字单元序列中每个文字单元在前后窗口范围内出现的文字单元进行基于神经网络的词义归纳,获得每个文字单元的词向量;对所述文字单元的词向量进行聚类,以形成所述概念词典。优选地,所述对文字单元的词向量进行聚类,以形成所述概念词典具体包括:执行聚类步骤:运用余弦相似度聚类方法,将所有词向量分成K个簇,计算词向量簇整体的轮廓系数;改变K值,重复执行所述聚类步骤,直到计算得到的轮廓系数最大;计算每一个词向量簇的中心向量;在每个词向量簇内,分别计算每个词向量与中心向量的欧式距离;按照预设的过滤比例删除欧式距离最大的词向量;根据剩余的词向量构建所述概念词典。优选地,所述利用所述概念词典对所述文档-词汇权重矩阵进行一次降维,使得文档-词汇权重矩阵降维至文档-概念权重矩阵具体包括:利用所述概念词典对该文档-词汇权重矩阵中文字单元的相似度进行定义,得到每个文字单元的概念;运用余弦组合公式,计算待处理文本的正文部分与不同概念的相似性,获得所述文档-概念权重矩阵。优选地,所述对所述文档-概念权重矩阵进行二次降维,使得文档-概念权重矩阵降维至文档-主题权重矩阵具体包括:运用因子分析,依据所述文档-概念权重矩阵,确定不同概念的最优组合方式和维度数量;将在同一维度上因子载荷高的概念合并作为一个主题维度,以获得因子载荷矩阵;对所述因子载荷矩阵进行正交旋转,对概念进行加权汇总后获得文本在各个主题上的权重,得到所述文档-主题权重矩阵。第二方面,一种在长文本中结合语义推断的主题提取系统,包括:解析单元:用于接收待处理长文本,对待处理长文本进行预处理获得若干个文字单元,对所述文字单元进行词频统计,以获得文档-词汇权重矩阵;词典单元:用于根据该待处理长文本中文字单元的上下文结构特征构建概念词典;降维单元:用于利用所述概念词典对所述文档-词汇权重矩阵进行一次降维,使得文档-词汇权重矩阵降维至文档-概念权重矩阵;对所述文档-概念权重矩阵进行二次降维,使得文档-概念权重矩阵降维至文档-主题权重矩阵;提取单元:用于根据所述文档-主题权重矩阵确定待处理长文本的主题,以及对主题的重视程度。优选地,所述解析单元具体用于:根据预设的文本格式删除待处理长文本中非正文部分,以获得待处理长文本的正文部分;使用预设的分词词库对该正文部分进行分词,获得该正文部分包含的若干个文字单元;运用TF-IDF模型计算待处理文本的正文部分与不同文字单元的相似性,获得文档-词汇权重矩阵。优选地,所述词典单元具体用于:将所述待处理长文本中正文部分进行分词,去除中文、英文以及数字之外的符号,获得由若干个文字单元组成的正文文字单元序列;运用word2vec方法,对所述文字单元序列中每个文字单元在前后窗口范围内出现的文字单元进行基于神经网络的词义归纳,获得每个文字单元的词向量;执行聚类步骤:运用余弦相似度聚类方法,将所有词向量分成K个簇,计算词向量簇整体的轮廓系数;改变K值,重复执行所述聚类步骤,直到计算得到的轮廓系数最大;计算每一个词向量簇的中心向量;在每个词向量簇内,分别计算每个词向量与中心向量的欧式距离;按照预设的过滤比例删除欧式距离最大的词向量;根据剩余的词向量构建所述概念词典。优选地,所述降维单元具体用于:利用所述概念词典对该文档-词汇权重矩阵中文字单元的相似度进行定义,得到每个文字单元的概念;运用余弦组合公式,计算待处理文本的正文部分与不同概念的相似性,获得所述文档-概念权重矩阵;运用因子分析,依据所述文档-概念权重矩阵,确定不同概念的最优组合方式和维度数量;将在同一维度上因子载荷高的概念合并作为一个主题维度,以获得因子载荷矩阵;对所述因子载荷矩阵进行正交旋转,对概念进行加权汇总后获得文本在各个主题上本文档来自技高网...

【技术保护点】
1.一种在长文本中结合语义推断的主题提取方法,其特征在于,包括以下步骤:/n接收待处理长文本,对待处理长文本进行预处理获得若干个文字单元,对所述文字单元进行词频统计,以获得文档-词汇权重矩阵;/n根据该待处理长文本中文字单元的上下文结构特征构建概念词典;/n利用所述概念词典对所述文档-词汇权重矩阵进行一次降维,使得文档-词汇权重矩阵降维至文档-概念权重矩阵;/n对所述文档-概念权重矩阵进行二次降维,使得文档-概念权重矩阵降维至文档-主题权重矩阵;/n根据所述文档-主题权重矩阵确定待处理长文本的主题,以及对主题的重视程度。/n

【技术特征摘要】
1.一种在长文本中结合语义推断的主题提取方法,其特征在于,包括以下步骤:
接收待处理长文本,对待处理长文本进行预处理获得若干个文字单元,对所述文字单元进行词频统计,以获得文档-词汇权重矩阵;
根据该待处理长文本中文字单元的上下文结构特征构建概念词典;
利用所述概念词典对所述文档-词汇权重矩阵进行一次降维,使得文档-词汇权重矩阵降维至文档-概念权重矩阵;
对所述文档-概念权重矩阵进行二次降维,使得文档-概念权重矩阵降维至文档-主题权重矩阵;
根据所述文档-主题权重矩阵确定待处理长文本的主题,以及对主题的重视程度。


2.根据权利要求1所述在长文本中结合语义推断的主题提取方法,其特征在于,所述对待处理长文本进行预处理获得若干个文字单元,对所述文字单元进行词频统计,以获得文档-词汇权重矩阵具体包括:
根据预设的文本格式删除待处理长文本中非正文部分,以获得待处理长文本的正文部分;
使用预设的分词词库对该正文部分进行分词,获得该正文部分包含的若干个文字单元;
运用TF-IDF模型计算待处理文本的正文部分与不同文字单元的相似性,获得文档-词汇权重矩阵。


3.根据权利要求2所述在长文本中结合语义推断的主题提取方法,其特征在于,所述根据该待处理长文本中文字单元的上下文结构特征构建概念词典具体包括:
将所述待处理长文本中正文部分进行分词,去除中文、英文以及数字之外的符号,获得由若干个文字单元组成的正文文字单元序列;
运用word2vec方法,对所述文字单元序列中每个文字单元在前后窗口范围内出现的文字单元进行基于神经网络的词义归纳,获得每个文字单元的词向量;
对所述文字单元的词向量进行聚类,以形成所述概念词典。


4.根据权利要求3所述在长文本中结合语义推断的主题提取方法,其特征在于,所述对文字单元的词向量进行聚类,以形成所述概念词典具体包括:
执行聚类步骤:运用余弦相似度聚类方法,将所有词向量分成K个簇,计算词向量簇整体的轮廓系数;
改变K值,重复执行所述聚类步骤,直到计算得到的轮廓系数最大;
计算每一个词向量簇的中心向量;
在每个词向量簇内,分别计算每个词向量与中心向量的欧式距离;
按照预设的过滤比例删除欧式距离最大的词向量;
根据剩余的词向量构建所述概念词典。


5.根据权利要求2所述在长文本中结合语义推断的主题提取方法,其特征在于,所述利用所述概念词典对所述文档-词汇权重矩阵进行一次降维,使得文档-词汇权重矩阵降维至文档-概念权重矩阵具体包括:
利用所述概念词典对该文档-词汇权重矩阵中文字单元的相似度进行定义,得到每个文字单元的概念;
运用余弦组合公式,计算待处理文本的正文部分与不同概念的相似性,获得所述文档-概念权重矩阵。


6.根据权利要求2所述在长文本中结合语义推断的主题提取方法,其特征在于,所述对所述文档-概念权重矩阵进行二次降维,使得文档-概念权重矩阵降维至文档-主题权重矩阵具体包括...

【专利技术属性】
技术研发人员:应豪
申请(专利权)人:应豪
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1