基于向量的文档检索方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:25041909 阅读:13 留言:0更新日期:2020-07-29 05:32
本发明专利技术涉及信息检索技术领域,提供了一种基于向量的文档检索方法、装置、计算机设备及存储介质,该基于向量的文档检索方法包括:获取在客户端输入的检索信息;提取检索信息中的各个词汇,并根据检索信息中各个词汇的语义将检索信息转换为检索向量;计算检索向量与预先形成的与资源文档相匹配的文档向量之间的相似度;按照相似度的大小将与文档向量相匹配的资源文档进行排序,将资源文档的排序结果作为检索结果。通过本发明专利技术的实施,能够解决现有技术中的文档检索方法存在检索准确度较低、检索难度较大的问题。

【技术实现步骤摘要】
基于向量的文档检索方法、装置、计算机设备及存储介质
本专利技术涉及信息检索
,尤其涉及一种基于向量的文档检索方法、装置、计算机设备及存储介质。
技术介绍
随着信息技术的不断发展,各行各业产生的信息量越来越大,传统的检索方式逐渐不能满足人们日常的检索需求。为了能够快速准确地获取到检索结果,需要对传统的文档检索方法进行改进,以使用户能够快速获得检索结果。目前,现有的文档检索方法一般是先建立包含第一关键词和逻辑运算符的布尔表达式,然后利用布尔表达式所表示的逻辑关系和第一关键词对文档进行检索。虽然通过上述文档检索方法能够获得检索结果,但由于布尔逻辑式的构造不易全面准确反映用户的需求,对用户的检索技能有较高要求,同时仅根据用户输入的第一关键词的文字表意进行检索,使得检索的结果准确度较低、检索难度较大。综上所述,现有技术中的文档检索方法存在检索准确度较低、检索难度较大的问题。
技术实现思路
本专利技术提供一种基于向量的文档检索方法、装置、计算机设备及存储介质,以解决现有的基于向量的文档检索方法存在特征数据提取难度较大、分类精确度不高的问题。本专利技术的第一实施例提供一种基于向量的文档检索方法,包括:获取在客户端输入的检索信息;提取检索信息中的各个词汇,并根据检索信息中各个词汇的语义将检索信息转换为检索向量;计算检索向量与预先形成的与资源文档相匹配的文档向量之间的相似度;按照相似度的大小将与文档向量相匹配的资源文档进行排序,将资源文档的排序结果作为检索结果。本专利技术的第二实施例提供一种基于向量的文档检索装置,包括:检索信息获取模块,用于获取在客户端输入的检索信息;检索向量获取模块,用于提取检索信息中的各个词汇,并根据检索信息中各个词汇的语义将检索信息转换为检索向量;相似度获取模块,用于计算检索向量与预先形成的与资源文档相匹配的文档向量之间的相似度;检索结果获取模块,用于按照相似度的大小将与文档向量相匹配的资源文档进行排序,将资源文档的排序结果作为检索结果。本专利技术的第三实施例提供一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现本专利技术的第一实施例提供的一种基于向量的文档检索方法的步骤。本专利技术的第四实施例提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现本专利技术的第一实施例提供的一种基于向量的文档检索方法的步骤。本申请提供的基于向量的文档检索方法、装置、计算机设备及存储介质中,首先获取在客户端输入的检索信息,再提取检索信息中的各个词汇,并根据检索信息中各个词汇的语义将检索信息转换为检索向量,然后计算检索向量与预先形成的与资源文档相匹配的文档向量之间的相似度,最后按照相似度的大小将与文档向量相匹配的资源文档进行排序,将资源文档的排序结果作为检索结果。提取检索信息中的各个词汇,并根据检索信息中的各个词汇的语义将检索信息转换成检索向量,通过本专利技术的实施,能够解决现有技术中的文档检索方法存在检索准确度较低、检索难度较大的问题。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术的第一实施例的基于向量的文档检索方法的一应用环境示意图;图2是本专利技术的第一实施例的基于向量的文档检索方法的流程图;图3是本专利技术的第一实施例的基于向量的文档检索方法中步骤12的流程图;图4是本专利技术的第一实施例的基于向量的文档检索方法中步骤122的流程图;图5是本专利技术的第一实施例的基于向量的文档检索方法中步骤1222的流程图;图6是本专利技术的第一实施例的基于向量的文档检索方法的又一流程图;图7是本专利技术的第二实施例的基于向量的文档检索装置的模块示意图;图8是本专利技术的第二实施例的基于向量的文档检索装置的又一模块示意图;图9是本专利技术的第二实施例的基于向量的文档检索装置的又一模块示意图;图10是本专利技术的第三实施例的计算机设备的一模块示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的第一实施例提供的基于向量的文档检索方法,可应用于如图1所示的应用环境中,其中,客户端(计算机设备)通过网络与服务端进行通信。服务器获取在客户端输入的检索信息,提取检索信息中的各个词汇,并根据检索信息中各个词汇的语义将检索信息转换为检索向量,计算检索向量与预先形成的与资源文档相匹配的文档向量之间的相似度,按照相似度的大小将与文档向量相匹配的资源文档进行排序,将资源文档的排序结果作为检索结果,并将检索结果发送至客户端。其中,客户端(计算机设备)可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在本专利技术的第一实施例中,如图2所示,提供一种基于向量的文档检索方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤11至步骤15。步骤11:获取在客户端输入的检索信息。其中,检索信息包含用户想要获得目标文档而输入的指定的与目标文档相关的信息。步骤12:提取检索信息中的各个词汇,并根据检索信息中各个词汇的语义将检索信息转换为检索向量。其中,一条检索信息对应一个检索向量。进一步地,作为本实施例的一种实施方式,如图3所示,上述步骤12具体包括以下步骤121至步骤124:步骤121:获取检索信息所包含的各个词汇。其中,上述步骤121包括:先对检索信息进行分词处理,然后去掉检索信息中的停用词。具体是先对检索信息中的各个文字进行隔离,在词典中查询各相邻文字之间是否能够组成词组,若能够组成词组,则将该相邻文字组成词组,若不能组成词组,则将该相邻词组进行隔离,然后将未形成词组的问或符号作为停用词,将形成的各个词组作为检索信息中的各个词汇。需要注意的是,相邻文字可以是连续两个相邻的文字,也可以是连续三个相邻的文字,此处不做具体限制。为能够更加清楚地理解上述步骤121,列举示例:检索信息为“探索宇宙的奥秘”,先对各个检索信息中的各个文字进行隔离得到“探/索/宇/宙/的/奥/秘”,在词典中查询各相邻文字之间是否能够组成词组,得到“探索/宇宙/的/奥秘”,将词组“探索”、“宇宙”、“奥秘”作为检索信息中的各个词汇,由于“的”并未与检索信息中的其他文字形成词组,将“的”作为停用词。步骤122:将各个词汇中本文档来自技高网...

【技术保护点】
1.一种基于向量的文档检索方法,其特征在于,所述文档检索方法包括:/n获取在客户端输入的检索信息;/n提取所述检索信息中的各个词汇,并根据所述检索信息中各个词汇的语义将所述检索信息转换为检索向量;/n计算所述检索向量与预先形成的与资源文档相匹配的文档向量之间的相似度;/n按照所述相似度的大小将与所述文档向量相匹配的所述资源文档进行排序,将所述资源文档的排序结果作为检索结果。/n

【技术特征摘要】
1.一种基于向量的文档检索方法,其特征在于,所述文档检索方法包括:
获取在客户端输入的检索信息;
提取所述检索信息中的各个词汇,并根据所述检索信息中各个词汇的语义将所述检索信息转换为检索向量;
计算所述检索向量与预先形成的与资源文档相匹配的文档向量之间的相似度;
按照所述相似度的大小将与所述文档向量相匹配的所述资源文档进行排序,将所述资源文档的排序结果作为检索结果。


2.根据权利要求1所述的基于向量的文档检索方法,其特征在于,所述提取所述检索信息中的各个词汇,并根据所述检索信息中各个词汇的语义将所述检索信息转换为检索向量包括:
获取所述检索信息所包含的各个词汇;
将所述各个词汇中语义相近的所述词汇分别用同一第一关键词进行表示;
统计各个所述第一关键词出现的次数;
将各个所述第一关键词和各个所述第一关键词出现的次数映射到向量词典,以得到所述检索向量。


3.根据权利要求2所述的基于向量的文档检索方法,其特征在于,所述将所述各个词汇中语义相近的所述词汇分别用同一第一关键词进行表示包括:
从同义词词林中获取与所述各个词汇相匹配的至少一个同义词;
计算所述各个词汇与对应匹配的所述同义词的语义相似度;
当所述词汇与所述同义词的相似度达到预设第一阈值时,将所述同义词作为与对应词汇相匹配的所述第一关键词。


4.根据权利要求3所述的基于向量的文档检索方法,其特征在于,所述计算所述各个词汇与对应匹配的所述同义词的语义相似度的步骤包括:
根据所述词汇获取第一语义信息,根据所述同义词获取第二语义信息;
从所述第一语义信息中获取第一语义关键词,以形成第一数据集,从所述第二语义信息中获取第二语义关键词,以形成第二数据集;
计算所述第一数据集和所述第二数据集之间的相似度,并将计算的所述相似度作为所述语义相似度。


5.根据权利要求1所述的基于向量的文档检索方法,其特征在于,获取所述预先形成的与所述资源文档相匹配的所述文档向量包括:
从所述资源文档中获取各个资源词汇;
将所述各个资源词汇中语义相近的所述资源词汇分别用第二关键...

【专利技术属性】
技术研发人员:王盼
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1