System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人工智能,尤其涉及一种信息检索方法、设备及介质。
技术介绍
1、随着人工智能技术的不断发展,利用模型进行信息检索成为了各领域内重要的技术工具。
2、但是,受限于信息的多样性、用户的个性化需求,以及对检索效率的高要求,现有技术中所采用的信息检索方法已经无法适用于各类高效检索的技术场景。
技术实现思路
1、鉴于以上内容,有必要提供一种信息检索方法、设备及介质,旨在解决检索效率低、准确率低的问题。
2、一种信息检索方法,所述信息检索方法包括:
3、采集初始文本文件,并对所述初始文本文件进行预处理,得到待处理数据;
4、按照配置切分策略对所述待处理数据进行切分,得到切分数据;
5、对所述切分数据进行向量化处理得到向量数据,并将所述向量数据存储至嵌入数据库;
6、当接收到目标用户触发的信息检索请求时,对所述信息检索请求进行问题优化,得到目标提问,包括:分析所述信息检索请求所包含主题的层级结构,并根据所述层级结构建立目标主题树;获取所述目标用户的用户偏好数据作为目标偏好数据,及获取所述目标用户的用户画像作为目标画像;获取与所述目标画像对应的主题优先级,并根据所述目标偏好数据对所述主题优先级进行调整,得到目标优先级;按照所述目标优先级优化所述信息检索请求,得到所述目标提问;
7、对所述目标提问进行向量化处理得到提问向量,并利用所述提问向量在所述嵌入数据库中进行相似性检索得到相似知识;
8
9、根据所述信息检索请求调取检索模型,并利用所述检索模型基于所述目标提示词进行响应,得到信息检索结果;
10、将所述信息检索结果反馈至所述目标用户。
11、根据本专利技术优选实施例,所述采集初始文本文件,并对所述初始文本文件进行预处理,得到待处理数据包括:
12、采集多种格式的文本文件作为所述初始文本文件;
13、利用与每种格式相对应的加载器提取每种格式的文本文件中的文本内容;
14、对提取出的文本内容进行分词处理,得到所述待处理数据。
15、根据本专利技术优选实施例,所述按照配置切分策略对所述待处理数据进行切分前,所述方法还包括:
16、获取所述待处理数据的数据源,并按照所述待处理数据的数据源对所述待处理数据进行拆分,得到至少一个子数据集;
17、获取每个子数据集中的每个文件,并将每个文件拆分为多个数据字段;
18、计算每两个数据字段间的上下文关联度,并按照每两个数据字段间的上下文关联度标记不同数据字段间的关系。
19、根据本专利技术优选实施例,所述按照配置切分策略对所述待处理数据进行切分,得到切分数据包括:
20、获取所述目标用户的用户反馈数据及使用习惯数据;
21、根据所述目标用户的用户反馈数据及使用习惯数据从预先配置的切分策略池中获取目标策略;
22、利用所述目标策略对所述待处理数据进行切分,得到所述切分数据;
23、其中,所述目标策略包括以下一种或者多种策略的组合:智能分词策略、智能标注策略、语义理解策略;
24、其中,对于所述智能分词策略,利用配置分词算法对每个数据字段进行分词处理;
25、其中,对于所述智能标注策略,对分词处理后得到的每个分词进行实体标注;
26、其中,对于所述语义理解策略,对每个数据字段进行意图识别得到识别结果,并根据所述识别结果对每个数据字段进行切分。
27、根据本专利技术优选实施例,所述获取与所述目标画像对应的主题优先级前,所述方法还包括:
28、获取历史信息检索请求,并分析所述历史信息检索请求所包含主题的层级结构作为历史层级结构;
29、根据所述历史层级结构建立历史主题树;
30、按照所述历史主题树中的每个历史主题分别进行检索,得到与每个历史主题对应的历史检索结果;
31、获取预先构建的用户画像;
32、对于所述用户画像中的每个用户,获取每个用户对每个历史主题对应的历史检索结果的响应;
33、根据每个用户对每个历史主题对应的历史检索结果的响应确定与每个用户对应的所述历史主题树中各主题的优先级。
34、根据本专利技术优选实施例,所述对所述信息检索请求进行问题优化,得到目标提问还包括:
35、获取所述信息检索请求中的每个元数据;
36、计算每两个元数据间的关联度,并根据每两个元数据间的关联度对每个元数据进行标记;
37、对标记后的每个元数据进行检索维度扩展,得到多个检索条件;
38、根据所述多个检索条件对所述信息检索请求进行调整,得到所述目标提问。
39、根据本专利技术优选实施例,所述利用所述检索模型基于所述目标提示词进行响应,得到信息检索结果包括:
40、基于关键词检索技术,利用所述检索模型基于所述目标提示词进行响应,得到第一检索结果;
41、基于语义检索技术,利用所述检索模型基于所述目标提示词进行响应,得到第二检索结果;
42、基于图谱检索技术,利用所述检索模型基于所述目标提示词进行响应,得到第三检索结果;
43、获取与所述关键词检索技术对应的第一权重,获取与所述语义检索技术对应的第二权重,及获取与所述图谱检索技术对应的第三权重;
44、根据所述第一权重、所述第二权重、所述第三权重计算所述第一检索结果、所述第二检索结果与所述第三检索结果的加权和,得到融合检索结果;
45、利用预测模型预测所述融合检索结果中每个信息单元的价值;
46、按照每个信息单元的价值由高到低的顺序对每个信息单元进行重排,得到信息单元序列;
47、从所述信息单元序列中获取前预设位的信息单元组成所述信息检索结果;
48、其中,所述第一权重、所述第二权重、所述第三权重根据每种检索技术对检索结果的贡献度进行配置。
49、一种信息检索装置,所述信息检索装置包括:
50、预处理单元,用于采集初始文本文件,并对所述初始文本文件进行预处理,得到待处理数据;
51、切分单元,用于按照配置切分策略对所述待处理数据进行切分,得到切分数据;
52、向量化单元,用于对所述切分数据进行向量化处理得到向量数据,并将所述向量数据存储至嵌入数据库;
53、优化单元,用于当接收到目标用户触发的信息检索请求时,对所述信息检索请求进行问题优化,得到目标提问,包括:分析所述信息检索请求所包含主题的层级结构,并根据所述层级结构建立目标主题树;获取所述目标用户的用户偏好数据作为目标偏好数据,及获取所述目标用户的用户画像作为目标画像;获取与所述目标画像对应的主题优先级,并根据所述目标偏好数据对所述主题优先级进行调本文档来自技高网...
【技术保护点】
1.一种信息检索方法,其特征在于,所述信息检索方法包括:
2.如权利要求1所述的信息检索方法,其特征在于,所述采集初始文本文件,并对所述初始文本文件进行预处理,得到待处理数据包括:
3.如权利要求1所述的信息检索方法,其特征在于,所述按照配置切分策略对所述待处理数据进行切分前,所述方法还包括:
4.如权利要求3所述的信息检索方法,其特征在于,所述按照配置切分策略对所述待处理数据进行切分,得到切分数据包括:
5.如权利要求1所述的信息检索方法,其特征在于,所述获取与所述目标画像对应的主题优先级前,所述方法还包括:
6.如权利要求1所述的信息检索方法,其特征在于,所述对所述信息检索请求进行问题优化,得到目标提问还包括:
7.如权利要求1所述的信息检索方法,其特征在于,所述利用所述检索模型基于所述目标提示词进行响应,得到信息检索结果包括:
8.一种计算机设备,其特征在于,所述计算机设备包括:
9.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令
...【技术特征摘要】
1.一种信息检索方法,其特征在于,所述信息检索方法包括:
2.如权利要求1所述的信息检索方法,其特征在于,所述采集初始文本文件,并对所述初始文本文件进行预处理,得到待处理数据包括:
3.如权利要求1所述的信息检索方法,其特征在于,所述按照配置切分策略对所述待处理数据进行切分前,所述方法还包括:
4.如权利要求3所述的信息检索方法,其特征在于,所述按照配置切分策略对所述待处理数据进行切分,得到切分数据包括:
5.如权利要求1所述的信息检索方法,其特征在于,所述获取与所述目标画像对应的主...
【专利技术属性】
技术研发人员:于东海,赵艳兴,黄波,
申请(专利权)人:北京零壹视界科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。