快速检索方法及系统技术方案

技术编号：27564523 阅读：31 留言：0更新日期：2021-03-09 22:08

一种快速检索方法及系统包括：S1、对待检索的用户提问文本进行预处理及文本量化；S2、根据量化结果构建n维空间；S3、在n维空间中随机选取n个点，基于n个点构建n维空间的分割超平面及分割超平面的垂直平分面；S4、重复执行S3直到分割的区域中剩下m个点；S5、构建二叉树，建立二叉树索引；S6、将检索文本进行分词、去停用词、文本量化处理；S7、根据二叉树结构进行检索遍历直到叶子节点，得到检索文本的相似文本数据，计算检索文本与每一相似文本数据的相似度，取相似度最高的相似文本数据；S8、基于相似度最高的相似文本数据在数据库中进行检索，得到相似度最高的相似文本数据的最终答案，最终答案作为检索本体的回答。最终答案作为检索本体的回答。最终答案作为检索本体的回答。

全部详细技术资料下载

【技术实现步骤摘要】
快速检索方法及系统

[0001]本专利技术属于自然语言处理信息检索领域，特别是涉及一种快速检索方法及系统。

技术介绍

[0002]随着互联网技术的飞速发展，数据成为信息传播的重要载体。在人机对话领域，对于海量的数据检索，传统的方法具有较高的时间复杂度，在某些实时性要求较高的场景中，显然不满足要求，因此，构建一种快速检索方法显得尤为重要。

技术实现思路

[0003]本专利技术针对现有技术存在的问题和不足，提供一种新型的快速检索方法及系统。
[0004]本专利技术是通过下述技术方案来解决上述技术问题的：
[0005]本专利技术提供一种快速检索方法，其特点在于，其包括以下步骤：
[0006]S1、将海量的待检索的用户提问文本进行预处理，将预处理后的用户提问文本进行文本量化表示，预处理过程包括分词和去停用词；
[0007]S2、根据文本量化后的量化结果构建n维空间，其中n>＝100；
[0008]S3、在n维空间中随机选取n个点，基于n个点构建n维空间的分割超平面及分割超平面的垂直平分面；
[0009]S4、重复执行步骤S3直到分割的区域中剩下m个点，m≤n；
[0010]S5、构建二叉树，建立二叉树索引；
[0011]S6、将检索文本进行分词、去停用词、文本量化表示处理；
[0012]S7、根据二叉树结构进行检索遍历直到叶子节点，得到检索文本的相似文本数据，计算检索文本与每一相似文本数据的相似度，取相似度最高的相似文本数据...

【技术保护点】

【技术特征摘要】
1.一种快速检索方法，其特征在于，其包括以下步骤：S1、将海量的待检索的用户提问文本进行预处理，将预处理后的用户提问文本进行文本量化表示，预处理过程包括分词和去停用词；S2、根据文本量化后的量化结果构建n维空间，其中n>＝100；S3、在n维空间中随机选取n个点，基于n个点构建n维空间的分割超平面及分割超平面的垂直平分面；S4、重复执行步骤S3直到分割的区域中剩下m个点，m≤n；S5、构建二叉树，建立二叉树索引；S6、将检索文本进行分词、去停用词、文本量化表示处理；S7、根据二叉树结构进行检索遍历直到叶子节点，得到检索文本的相似文本数据，计算检索文本与每一相似文本数据的相似度，取相似度最高的相似文本数据；S8、基于相似度最高的相似文本数据在数据库中进行检索，得到相似度最高的相似文本数据的最终答案，最终答案作为检索本体的回答。2.如权利要求1所述的快速检索方法，其特征在于，在步骤S1中，利用Word2vec对预处理后的用户提问文本进行文本量化。3.如权利要求1所述的快速检索方法，其特征在于，在步骤S8中，数据库采用MySQL数据库。4.一种快速检索系统，其特征在于，其包括处理量化模块、空间构建模块、平面构建模块...

【专利技术属性】
技术研发人员：李霞，陈怡，刘凤余，王驹冬，
申请(专利权)人：上海卓繁信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人