一种文本特征提取及辅助检索的系统及方法技术方案

技术编号:32289334 阅读:16 留言:0更新日期:2022-02-12 19:58
本发明专利技术提供一种文本特征提取及辅助检索的系统及方法,属于计算机软件开发领域,本发明专利技术1)数据准备单元,2)召回单元和3)排序单元;首先利用新词发现方法扩充词汇库,之后对关键词进行搜索近义词并利用近义关键词扩大文本检索范围,对于检索出的相关文本使用基于元学习优化的卷积神经网络进行相似度计算并排序。习优化的卷积神经网络进行相似度计算并排序。习优化的卷积神经网络进行相似度计算并排序。

【技术实现步骤摘要】
一种文本特征提取及辅助检索的系统及方法


[0001]本专利技术涉及计算机软件开发
,尤其涉及一种文本特征提取及辅助检索的系统及方法。

技术介绍

[0002]新词发现技术,是nlp领域中用于发现新生词汇或专有词汇的方法,本文使用的是基于统计学方法的新词发现方法,使用互信息和左右熵作为新词发现的依据。
[0003]Word2Vec是语言模型中的一种,是用来生成词向量的工具,它是从大量文本预料中以无监督方式学习语义知识的模型,被广泛地应用于自然语言处理中。
[0004]元学习是深度学习中的一种思想,简单理解就是让机器学会学习,有举一反三的能力,具体方法就是通过一个预训练的步骤,使机器先学习某些先验知识,从而使其再接下来面对相似任务时可以利用这些先验知识时通过更小的代价达到不错的效果。
[0005]元学习的MAML算法,是元学习的一种实现算法,它可以对任何结构的模型利用元学习的思想进行优化,其主要思想是在许多不同的相似任务集合p(T)中,选取某些任务T,使用它们对模型进行预训练,在预训练过程中,对模型的初始参数θ进行优化。由此获得的初始参数θ

可以使模型在训练新任务时只需微调几次就可以快速收敛。

技术实现思路

[0006]为了解决以上技术问题,本专利技术提供了一种文本特征提取及辅助检索的系统。
[0007]本专利技术的技术方案是:
[0008]一种文本特征提取及辅助检索系统,其特征在于,
[0009]包括1)数据准备单元,2)召回单元和3)排序单元;
[0010]其中1)数据准备单元包括新词发现模块、分词模块、去除停用词模块;
[0011]1.1)新词发现模块,对已有文本语料库进行专有词汇的获取,并将其添加入词汇库;
[0012]1.2)分词模块,使用文本作为语料库,并根据分类赋予标签,之后对所有的文本进行分词;
[0013]1.3)去除停用词模块,去除文本中含义的词,即停用词;
[0014]2)召回单元,将经过数据处理后的词语集合作为训练集文本并训练词向量;
[0015]3)排序单元,包括文本特征单元、文本相似性单元和文本排序单元;
[0016]3.1)文本特征单元将有分类标签的文本分词后获得的词向量列表转换成二维矩阵,输入卷积神经网络,并选取其中一个以上的分类预训练网络初始参数;获得预训练好的卷积神经网络结构后,将所有有标注文本输入网络训练最终的分类模型;把最终的分类网络的全连接层删除,只保留卷积层和隐藏层,并固定其参数,就可以得到文本的特征提取网络;
[0017]3.2)文本相似性单元,将文本特征提取网络的参数固定,后面添加新的全连接层,
使用中文文本相似度数据集训练网络,得到文本相似度网络;
[0018]3.3)文本排序单元,将待搜索文本与召回阶段搜索得到的文本输入文本相似度网络,获取文本间的相似度,并根据相似度从高到低排序。
[0019]进一步的,
[0020]分词时,使用分词模块设置的python的jieba库进行分词,同时使用增加专有名词后的词汇库作为分词的依据;在对文本进行分词处理后,对于每篇文本都会得到一个列表,列表中的每一个元素都对应文本中的一个词语。
[0021]使用模块中设置的word2vect词向量模型训练词向量;
[0022]word2vec模型训练结束后,会对每一个词语生成一个唯一的向量,使用模块中设置的余弦相似度模块找到与所需文本的关键词意思相近的词语,在搜索时将近义词也作为关键词进行搜索。
[0023]本专利技术还公开了一种文本特征提取及辅助检索的方法,
[0024]使用元学习的MAML算法优化卷积神经网络,对文本进行特征提取,为检索内容提供参考,根据训练好的模型自动提炼搜索文本相关关键词,并依据排序规则进行相似度排序,提供与该文本相关的公开信息。
[0025]进一步的,
[0026]首先利用新词发现方法扩充词汇库,之后对关键词进行搜索近义词并利用近义关键词扩大文本检索范围,对于检索出的相关文本使用基于元学习优化的卷积神经网络进行相似度计算并排序。
[0027]使用基于互信息和左右熵的新词发现方法对已有文本语料库进行专有词汇的获取,并将其添加入词汇库。
[0028]使用已有的文本作为语料库,并根据分类赋予标签,之后对所有的文本进行分词;分词时,推荐使用python的jieba库进行分词,同时使用增加专有名词后的词汇库作为分词的依据;在对文本进行分词处理后,对于每篇文本都会得到一个列表,列表中的每一个元素都对应摘要中的一个词语,这些列表的集合就是初步分词得到的结果。
[0029]将经过数据处理后的词语集合作为训练集文本,使用word2vect词向量模型训练词向量;
[0030]word2vec模型训练结束后,会对每一个词语生成一个唯一的向量;使用余弦相似度方法,找到与所需文本的关键词意思相近的词语,在文本搜索时将近义词也作为关键词进行搜索。
[0031]将有分类标签的文本分词后获得的词向量列表转换成二维矩阵,输入卷积神经网络,并选取分类使用MAML算法预训练网络初始参数;获得预训练好的卷积神经网络结构后,将所有有标注文本输入网络训练最终的分类模型;把最终的分类网络的全连接层删除,只保留卷积层和隐藏层,并固定其参数,就可以得到文本的特征提取网络。
[0032]将文本特征提取网络的参数固定,后面添加新的全连接层,使用中文文本相似度数据集训练网络,得到文本相似度网络;
[0033]将待搜索文本与召回阶段搜索得到的文本输入文本相似度网络,获取文本间的相似度,并根据相似度从高到低排序。
[0034]本专利技术的有益效果是
[0035]1、使用基于互信息和左右熵的新词发现方法,将专有词汇加入词库,提高了词语的识别率,可以增加文本间的区分度,获得更好的识别效果。
[0036]2、可以提高文本检索的速度,大大降低文本检索耗费的时间成本。
[0037]3、根据检索关键词搜索相关文本,对文本的相关性进行筛选和排序,大大缩小了文本阅读的数量,减少文本检索时大量阅读文本的困扰。
[0038]4、训练后的词向量库可生成持久化文件,随时迁移,不需要多次训练,使用十分方便。
[0039]5、使用召回——排序的思想,可以在保证召回率的前提下增加文本检索的精度,尽可能减少文本检索时发生检索不全的情况,同时提供了相似度排序,缩小检索范围。
[0040]6、使用元学习的MAML算法对卷积神经网络进行优化,可以减少训练时间,并且提高少量样本时的准确率。
[0041]7、使用卷积神经网络对文本文本的向量矩阵进行特征提取可以获取整个文本的全局特征,并进行相似度分析,准确性更高。
附图说明
[0042]图1是生成词向量工作流程示意图;
[0043]图2是检索关键词近义词流程示意图;
[0044]图3是构建专利文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本特征提取及辅助检索系统,其特征在于,包括1)数据准备单元,2)召回单元和3)排序单元;其中1)数据准备单元包括新词发现模块、分词模块、去除停用词模块;1.1)新词发现模块,对已有文本语料库进行专有词汇的获取,并将其添加入词汇库;1.2)分词模块,使用文本作为语料库,并根据分类赋予标签,之后对所有的文本进行分词;1.3)去除停用词模块,去除文本中含义的词,即停用词;2)召回单元,将经过数据处理后的词语集合作为训练集文本并训练词向量;3)排序单元,包括文本特征单元、文本相似性单元和文本排序单元;3.1)文本特征单元将有分类标签的文本分词后获得的词向量列表转换成二维矩阵,输入卷积神经网络,并选取其中一个以上的分类预训练网络初始参数;获得预训练好的卷积神经网络结构后,将所有有标注文本输入网络训练最终的分类模型;把最终的分类网络的全连接层删除,只保留卷积层和隐藏层,并固定其参数,就可以得到文本的特征提取网络;3.2)文本相似性单元,将文本特征提取网络的参数固定,后面添加新的全连接层,使用中文文本相似度数据集训练网络,得到文本相似度网络;3.3)文本排序单元,将待搜索文本与召回阶段搜索得到的文本输入文本相似度网络,获取文本间的相似度,并根据相似度从高到低排序。2.根据权利要求1所述的系统,其特征在于,分词时,使用分词模块设置的python的jieba库进行分词,同时使用增加专有名词后的词汇库作为分词的依据;在对文本进行分词处理后,对于每篇文本都会得到一个列表,列表中的每一个元素都对应文本中的一个词语。3.根据权利要求1所述的系统,其特征在于,使用模块中设置的word2vect词向量模型训练词向量;word2vec模型训练结束后,会对每一个词语生成一个唯一的向量,使用模块中设置的余弦相似度模块找到与所需文本的关键词意思相近的词语,在搜索时将近义词也作为关键词进行搜索。4.一种文本特征提取及辅助检索的方法,其特征在于,使用元学习的MAML算法优化卷积神经网络,对文本进行特征提取,为检索内...

【专利技术属性】
技术研发人员:傅玉鑫孙永超蔺林郭亚琨张艳雪李照川
申请(专利权)人:浪潮卓数大数据产业发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1