基于向量的文档检索方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：25041909 阅读：13 留言：0更新日期：2020-07-29 05:32

本发明专利技术涉及信息检索技术领域，提供了一种基于向量的文档检索方法、装置、计算机设备及存储介质，该基于向量的文档检索方法包括：获取在客户端输入的检索信息；提取检索信息中的各个词汇，并根据检索信息中各个词汇的语义将检索信息转换为检索向量；计算检索向量与预先形成的与资源文档相匹配的文档向量之间的相似度；按照相似度的大小将与文档向量相匹配的资源文档进行排序，将资源文档的排序结果作为检索结果。通过本发明专利技术的实施，能够解决现有技术中的文档检索方法存在检索准确度较低、检索难度较大的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于向量的文档检索方法、装置、计算机设备及存储介质
本专利技术涉及信息检索
，尤其涉及一种基于向量的文档检索方法、装置、计算机设备及存储介质。
技术介绍
随着信息技术的不断发展，各行各业产生的信息量越来越大，传统的检索方式逐渐不能满足人们日常的检索需求。为了能够快速准确地获取到检索结果，需要对传统的文档检索方法进行改进，以使用户能够快速获得检索结果。目前，现有的文档检索方法一般是先建立包含第一关键词和逻辑运算符的布尔表达式，然后利用布尔表达式所表示的逻辑关系和第一关键词对文档进行检索。虽然通过上述文档检索方法能够获得检索结果，但由于布尔逻辑式的构造不易全面准确反映用户的需求，对用户的检索技能有较高要求，同时仅根据用户输入的第一关键词的文字表意进行检索，使得检索的结果准确度较低、检索难度较大。综上所述，现有技术中的文档检索方法存在检索准确度较低、检索难度较大的问题。
技术实现思路
本专利技术提供一种基于向量的文档检索方法、装置、计算机设备及存储介质，以解决现有的基于向量的文档检索方法存在特征数据提取难度较大、分类精确度不高的问题。本专利技术的第一实施例提供一种基于向量的文档检索方法，包括：获取在客户端输入的检索信息；提取检索信息中的各个词汇，并根据检索信息中各个词汇的语义将检索信息转换为检索向量；计算检索向量与预先形成的与资源文档相匹配的文档向量之间的相似度；按照相似度的大小将与文档向量相匹配的资源文档进行排序，将资源文档的排序结果作为检...

【技术保护点】
1.一种基于向量的文档检索方法，其特征在于，所述文档检索方法包括：/n获取在客户端输入的检索信息；/n提取所述检索信息中的各个词汇，并根据所述检索信息中各个词汇的语义将所述检索信息转换为检索向量；/n计算所述检索向量与预先形成的与资源文档相匹配的文档向量之间的相似度；/n按照所述相似度的大小将与所述文档向量相匹配的所述资源文档进行排序，将所述资源文档的排序结果作为检索结果。/n

【技术特征摘要】
1.一种基于向量的文档检索方法，其特征在于，所述文档检索方法包括：
获取在客户端输入的检索信息；
提取所述检索信息中的各个词汇，并根据所述检索信息中各个词汇的语义将所述检索信息转换为检索向量；
计算所述检索向量与预先形成的与资源文档相匹配的文档向量之间的相似度；
按照所述相似度的大小将与所述文档向量相匹配的所述资源文档进行排序，将所述资源文档的排序结果作为检索结果。

2.根据权利要求1所述的基于向量的文档检索方法，其特征在于，所述提取所述检索信息中的各个词汇，并根据所述检索信息中各个词汇的语义将所述检索信息转换为检索向量包括：
获取所述检索信息所包含的各个词汇；
将所述各个词汇中语义相近的所述词汇分别用同一第一关键词进行表示；
统计各个所述第一关键词出现的次数；
将各个所述第一关键词和各个所述第一关键词出现的次数映射到向量词典，以得到所述检索向量。

3.根据权利要求2所述的基于向量的文档检索方法，其特征在于，所述将所述各个词汇中语义相近的所述词汇分别用同一第一关键词进行表示包括：
从同义词词林中获取与所述各个词汇相匹配的至少一个同义词；
计算所述各个词汇与对应匹配的所述同义词的语义相似度；
当所述词汇与所述同义词的相似度达到预设第一阈值时，将所述同义词作为与对应词汇相匹配的所述第一关键词。

4.根据权利要求3所述的基于向量的文档检索方法，其特征在于，所述计算所述各个词汇与对应匹配的所述同义词的语义相似度的步骤包括：
根据所述词汇获取第一语义信息，根据所述同义词获取第二语义信息；
从所述第一语义信息中获取第一语义关键词，以形成第一数据集，从所述第二语义信息中获取第二语义关键词，以形成第二数据集；
计算所述第一数据集和所述第二数据集之间的相似度，并将计算的所述相似度作为所述语义相似度。

5.根据权利要求1所述的基于向量的文档检索方法，其特征在于，获取所述预先形成的与所述资源文档相匹配的所述文档向量包括：
从所述资源文档中获取各个资源词汇；
将所述各个资源词汇中语义相近的所述资源词汇分别用第二关键...

【专利技术属性】
技术研发人员：王盼，
申请(专利权)人：深圳壹账通智能科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人