关键词智能提取方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:29615211 阅读:17 留言:0更新日期:2021-08-10 18:30
本发明专利技术公开了关键词智能提取方法、装置、计算机设备及存储介质,方法包括:将用户输入的初始文本转换为文本编码信息并获取每一语句变化的语句向量矩阵,从语句向量矩阵中提取词汇向量并进行白化处理,得到每一词汇向量对应的标准单位向量,计算标准单位向量与对应语句向量矩阵的语句标识向量之间的相似度,根据相似度计算结果从初始文本的分词结果中筛选得到满足词汇筛选规则的目标词汇作为关键词提取结果。本发明专利技术属于语义解析技术领域,可准确获取初始文本中词汇对应的标准单位向量,并基于标准单位向量与对应语句向量矩阵的语句标识向量之间的相似度从初始文本中提取目标词汇作为关键词提取结果,大幅提高了从文本中进行关键词提取的准确性。

【技术实现步骤摘要】
关键词智能提取方法、装置、计算机设备及存储介质
本专利技术涉及语义解析
,属于智慧城市中对文本进行关键词智能提取的应用场景,尤其涉及一种关键词智能提取方法、装置、计算机设备及存储介质。
技术介绍
关键词提取是传统自然语言处理中非常常见的任务,关键词是从文本中提取出来比较特别的、且能够代表文本基本含义词汇,从文本中提取到的关键词的质量对下游任务而言是至关重要的。传统技术方法均是对文本中词汇的出现频率进行分析统计,基于词汇出现频率确定文本中的关键词,然而专利技术人发现,文本中部分出现频率不高的词汇可能会具有显著体现文本特征的作用,而现有的关键词提取方法基于词汇出现频率确定关键词,会导致提取到的关键词无法准确体现文本的含义,影响了从文本中提取到的关键词的质量,导致关键词提取的准确性不高。因此,现有的技术方法中关键词提取方法存在的关键词提取准确性不高的问题。
技术实现思路
本专利技术实施例提供了一种关键词智能提取方法、装置、计算机设备及存储介质,旨在解决现有技术方法中所关键词提取方法所存在的关键词提取准确性不高的问题。第一方面,本专利技术实施例提供了一种关键词智能提取方法,其包括:若接收到用户输入的初始文本,将所述初始文本转换为由语句编码组合形成的文本编码信息;将所述文本编码信息输入预置的神经网络模型以得到与每一语句编码对应的语句向量矩阵;根据预置的词汇集合从每一所述语句向量矩阵中提取得到对应的词汇向量;根据所述语句向量矩阵对与所述语句向量矩阵对应的多个所述词汇向量分别进行白化处理,得到与每一所述词汇向量对应的标准单位向量;获取每一所述语句向量矩阵的语句标识向量与对应的多个所述标准单位向量之间的相似度得到相似度计算结果;根据预置的词汇筛选规则及所述相似度计算结果从所述初始文本的分词结果中筛选得到目标词汇作为所述初始文本的关键词提取结果。第二方面,本专利技术实施例提供了一种关键词智能提取装置,其包括:初始文本转换单元,用于若接收到用户输入的初始文本,将所述初始文本转换为由语句编码组合形成的文本编码信息;语句向量矩阵获取单元,用于将所述文本编码信息输入预置的神经网络模型以得到与每一语句编码对应的语句向量矩阵;词汇向量提取单元,用于根据预置的词汇集合从每一所述语句向量矩阵中提取得到对应的词汇向量;标准单位向量获取单元,用于根据所述语句向量矩阵对与所述语句向量矩阵对应的多个所述词汇向量分别进行白化处理,得到与每一所述词汇向量对应的标准单位向量;相似度计算结果获取单元,用于获取每一所述语句向量矩阵的语句标识向量与对应的多个所述标准单位向量之间的相似度得到相似度计算结果;关键词提取结果获取单元,用于根据预置的词汇筛选规则及所述相似度计算结果从所述初始文本的分词结果中筛选得到目标词汇作为所述初始文本的关键词提取结果。第三方面,本专利技术实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的关键词智能提取方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的关键词智能提取方法。本专利技术实施例提供了一种关键词智能提取方法、装置、计算机可读存储介质。将用户输入的初始文本转换为文本编码信息并获取每一语句变化的语句向量矩阵,从语句向量矩阵中提取词汇向量并进行白化处理,得到每一词汇向量对应的标准单位向量,计算标准单位向量与对应语句向量矩阵的语句标识向量之间的相似度,根据相似度计算结果从初始文本的分词结果中筛选得到满足词汇筛选规则的目标词汇作为关键词提取结果。通过上述方法,可准确获取初始文本中词汇对应的标准单位向量,并基于标准单位向量与对应语句向量矩阵的语句标识向量之间的相似度从初始文本中提取目标词汇作为关键词提取结果,可提高所提取到的关键词的质量,以此大幅提高从文本中进行关键词提取的准确性。附图说明为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的关键词智能提取方法的流程示意图;图2为本专利技术实施例提供的关键词智能提取方法的子流程示意图;图3为本专利技术实施例提供的关键词智能提取方法的另一子流程示意图;图4为本专利技术实施例提供的关键词智能提取方法的另一子流程示意图;图5为本专利技术实施例提供的关键词智能提取方法的另一子流程示意图;图6为本专利技术实施例提供的关键词智能提取方法的另一流程示意图;图7为本专利技术实施例提供的关键词智能提取装置的示意性框图;图8为本专利技术实施例提供的计算机设备的示意性框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在此本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本专利技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。请参阅图1,图1是本专利技术实施例提供的关键词智能提取方法的流程示意图;该关键词智能提取方法应用于用户终端或管理服务器中,该关键词智能提取方法通过安装于用户终端或管理服务器中的应用软件进行执行,用户终端即是可接收用户输入的初始文本并进行关键词智能提取的终端设备,例如台式电脑、笔记本电脑、平板电脑或手机等,管理服务器即是可接收用户通过用终端发送的初始文本并进行关键词智能提取的服务器端,如企业或政府部门所构建的服务器。如图1所示,该方法包括步骤S110~S160。S110、若接收到用户输入的初始文本,将所述初始文本转换为由语句编码组合形成的文本编码信息。若接收到用户输入的初始文本,将所述初始文本转换为由语句编码组合形成的文本编码信息。用户可输入初始文本,初始文本为由一个文本语句或多个文本语句组成的一段文字信息,可对初始文本进行转换,得到文本编码信息,则文本编码信息中包含由每一本文档来自技高网...

【技术保护点】
1.一种关键词智能提取方法,其特征在于,所述方法包括:/n若接收到用户输入的初始文本,将所述初始文本转换为由语句编码组合形成的文本编码信息;/n将所述文本编码信息输入预置的神经网络模型以得到与每一语句编码对应的语句向量矩阵;/n根据预置的词汇集合从每一所述语句向量矩阵中提取得到对应的词汇向量;/n根据所述语句向量矩阵对与所述语句向量矩阵对应的多个所述词汇向量分别进行白化处理,得到与每一所述词汇向量对应的标准单位向量;/n获取每一所述语句向量矩阵的语句标识向量与对应的多个所述标准单位向量之间的相似度得到相似度计算结果;/n根据预置的词汇筛选规则及所述相似度计算结果从所述初始文本的分词结果中筛选得到目标词汇作为所述初始文本的关键词提取结果。/n

【技术特征摘要】
1.一种关键词智能提取方法,其特征在于,所述方法包括:
若接收到用户输入的初始文本,将所述初始文本转换为由语句编码组合形成的文本编码信息;
将所述文本编码信息输入预置的神经网络模型以得到与每一语句编码对应的语句向量矩阵;
根据预置的词汇集合从每一所述语句向量矩阵中提取得到对应的词汇向量;
根据所述语句向量矩阵对与所述语句向量矩阵对应的多个所述词汇向量分别进行白化处理,得到与每一所述词汇向量对应的标准单位向量;
获取每一所述语句向量矩阵的语句标识向量与对应的多个所述标准单位向量之间的相似度得到相似度计算结果;
根据预置的词汇筛选规则及所述相似度计算结果从所述初始文本的分词结果中筛选得到目标词汇作为所述初始文本的关键词提取结果。


2.根据权利要求1所述的关键词智能提取方法,其特征在于,所述将所述初始文本转换为文本编码信息,包括:
将所述初始文本拆分为对应的多个文本语句;
根据预置的转换词典对所述多个文本语句进行转换得到与每一文本语句对应的语句编码。


3.根据权利要求1所述的关键词智能提取方法,其特征在于,所述根据预置的词汇集合从每一所述语句向量矩阵中提取得到对应的词汇向量,包括:
根据所述词汇集合对每一所述语句向量矩阵对应的文本语句进行分词得到每一所述文本语句的分词结果;
从每一所述语句向量矩阵中提取与所述分词结果包含的词汇所对应的字符向量信息;
对每一所述词汇的字符向量信息进行平均计算得到与每一所述词汇对应的词汇向量。


4.根据权利要求1所述的关键词智能提取方法,其特征在于,所述根据所述语句向量矩阵对与所述语句向量矩阵对应的多个所述词汇向量分别进行白化处理,得到与每一所述所述词汇向量对应的标准单位向量,包括:
将每一所述语句向量矩阵的语句标识向量及对应的多个所述词汇向量进行组合,得到与每一所述语句向量矩阵对应的初始向量集合;
计算每一所述初始向量集合对应的协方差矩阵;
对每一所述协方差矩阵进行奇异值分解及矩阵变换处理得到对应的协方差单位矩阵;
将每一所述词汇向量与对应均值向量的差值与所述词汇向量对应的协方差单位矩阵相乘,得到每一所述词汇向量对应的标准单位向量。


5.根据权利要求1所述的关键词智能提取方法,其特征在于,所述相似度为余弦相似度,所述获取每一所述语句向量矩阵的语句标识向量与对应的多个所述标准单位向量之间的相似度得到相似度计...

【专利技术属性】
技术研发人员:李志韬王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1