一种文本特征提取及辅助检索的系统及方法技术方案

技术编号：32289334 阅读：16 留言：0更新日期：2022-02-12 19:58

本发明专利技术提供一种文本特征提取及辅助检索的系统及方法，属于计算机软件开发领域，本发明专利技术1)数据准备单元，2)召回单元和3)排序单元；首先利用新词发现方法扩充词汇库，之后对关键词进行搜索近义词并利用近义关键词扩大文本检索范围，对于检索出的相关文本使用基于元学习优化的卷积神经网络进行相似度计算并排序。习优化的卷积神经网络进行相似度计算并排序。习优化的卷积神经网络进行相似度计算并排序。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本特征提取及辅助检索的系统及方法

[0001]本专利技术涉及计算机软件开发
，尤其涉及一种文本特征提取及辅助检索的系统及方法。

技术介绍

[0002]新词发现技术，是nlp领域中用于发现新生词汇或专有词汇的方法，本文使用的是基于统计学方法的新词发现方法，使用互信息和左右熵作为新词发现的依据。
[0003]Word2Vec是语言模型中的一种，是用来生成词向量的工具，它是从大量文本预料中以无监督方式学习语义知识的模型，被广泛地应用于自然语言处理中。
[0004]元学习是深度学习中的一种思想，简单理解就是让机器学会学习，有举一反三的能力，具体方法就是通过一个预训练的步骤，使机器先学习某些先验知识，从而使其再接下来面对相似任务时可以利用这些先验知识时通过更小的代价达到不错的效果。
[0005]元学习的MAML算法，是元学习的一种实现算法，它可以对任何结构的模型利用元学习的思想进行优化，其主要思想是在许多不同的相似任务集合p(T)中，选取某些任务T，使用它们对模型进行预训练，在预训练过程中，对模型的初始参数θ进行优化。由此获得的初始参数θ
′
可以使模型在训练新任务时只需微调几次就可以快速收敛。

技术实现思路

[0006]为了解决以上技术问题，本专利技术提供了一种文本特征提取及辅助检索的系统。
[0007]本专利技术的技术方案是：
[0008]一种文本特征提取及辅助检索系统，其特征在于，
[0009]包括1)数据准备单元，2)召回单元和...

【技术保护点】

【技术特征摘要】
1.一种文本特征提取及辅助检索系统，其特征在于，包括1)数据准备单元，2)召回单元和3)排序单元；其中1)数据准备单元包括新词发现模块、分词模块、去除停用词模块；1.1)新词发现模块，对已有文本语料库进行专有词汇的获取，并将其添加入词汇库；1.2)分词模块，使用文本作为语料库，并根据分类赋予标签，之后对所有的文本进行分词；1.3)去除停用词模块，去除文本中含义的词，即停用词；2)召回单元，将经过数据处理后的词语集合作为训练集文本并训练词向量；3)排序单元，包括文本特征单元、文本相似性单元和文本排序单元；3.1)文本特征单元将有分类标签的文本分词后获得的词向量列表转换成二维矩阵，输入卷积神经网络，并选取其中一个以上的分类预训练网络初始参数；获得预训练好的卷积神经网络结构后，将所有有标注文本输入网络训练最终的分类模型；把最终的分类网络的全连接层删除，只保留卷积层和隐藏层，并固定其参数，就可以得到文本的特征提取网络；3.2)文本相似性单元，将文本特征提取网络的参数固定，后面添加新的全连接层，使用中文文本相似度数据集训练网络，得到文本相似度网络；3.3)文本排序单元，将待搜索文本与召回阶段搜索得到的文本输入文本相似度网络，获取文本间的相似度，并根据相似度从高到低排序。2.根据权利要求1所述的系统，其特征在于，分词时，使用分词模块设置的python的jieba库进行分词，同时使用增加专有名词后的词汇库作为分词的依据；在对文本进行分词处理后，对于每篇文本都会得到一个列表，列表中的每一个元素都对应文本中的一个词语。3.根据权利要求1所述的系统，其特征在于，使用模块中设置的word2vect词向量模型训练词向量；word2vec模型训练结束后，会对每一个词语生成一个唯一的向量，使用模块中设置的余弦相似度模块找到与所需文本的关键词意思相近的词语，在搜索时将近义词也作为关键词进行搜索。4.一种文本特征提取及辅助检索的方法，其特征在于，使用元学习的MAML算法优化卷积神经网络，对文本进行特征提取，为检索内...

【专利技术属性】
技术研发人员：傅玉鑫，孙永超，蔺林，郭亚琨，张艳雪，李照川，
申请(专利权)人：浪潮卓数大数据产业发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人