System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于人工智能,涉及信息检索技术,具体涉及一种基于ai的综合信息检索系统和方法。
技术介绍
1、现代日常生活中,人们需要存储的信息量越来越多,信息存储的方式和存储的位置也越来越多样化,如以文件、图片、视频等格式存储在邮件、各种app、电脑、手机、云端等。当想要依据简单的关键词查找原始信息时,缺乏一种能够检索上述所有地方的方法。目前电脑或服务器的本地检索方案已经相对成熟,例如类似everything的搜索工具,通过将电脑上的文件建成索引数据库,根据文件名或内容能够快速搜索到文件位置。其缺点是只支持关键词搜索,如果用户忘记关键词,只记得大概和模糊的内容,则很难找到想要的文件,也不能检索邮件或app内的信息。此外,常规的互联网搜索引擎能够检索互联网服务器上的所有内容,但检索到的内容必须以网页服务的方式呈现,而且如果只是以本地文件形式存在于服务器上,则该本地文件也不能被检索到。
技术实现思路
1、技术目的:针对上述技术问题,本专利技术提出了一种基于ai的综合信息检索系统和方法,通过将用户所有存储信息的设备组成一个系统,对所有信息进行抽象后汇总到一起,便于查询,该检索方法基于api标准,能够对电子设备的本地信息包括邮箱或app的内容进行信息抽取。
2、技术方案:为实现上述技术目的,本专利技术采用了如下技术方案:
3、一种基于ai的综合信息检索系统,包括:
4、摘要信息数据库,用于存储来自一个或多个电子设备的摘要信息,其中,各个电子设备上均部署搜索引
5、搜索引擎,预先部署在电子设备上,用于定期读取所在电子设备上的本地信息即原始数据;用于调用ai模型对读取原始数据进行摘要抽取和生成摘要信息,并将所述摘要信息存储到所述摘要信息数据库中;用于接收用户输入的关键词,根据扩充后的关键词查找摘要信息数据库,得到匹配结果并展示,匹配结果包括与关键词匹配的摘要信息;
6、ai模型,由所述搜索引擎调用,用于对搜索引擎读取的原始数据进行摘要抽取和生成摘要信息,以及,用于对关键词进行扩充;
7、api接口模块,用于供所述搜索引擎在读取本地信息时,通过api接口模块访问所在电子设备上的邮箱或app内的数据。
8、优选地,所述电子设备为本地电脑、远端服务器或移动设备中的任一种或一种以上种的组合。
9、优选地,所述ai模型包括摘要抽取单元和关键词扩充单元;
10、所述摘要抽取单元包括:
11、分类处理模块,用于对输入数据进行分类,分为图像数据、视频数据和文本数据;
12、rnn网络,用于对分类处理模块输出的图像数据或视频数据进行处理,生成文本数据;
13、bert模型,用于接收分类处理模块或rnn网络输出的文本数据,获取文本数据中每个句子的句向量,通过多种不同的结构对段落、句子进行选择判断,为每个句子进行打分,最终选取最优的top n个句子作为文档摘要;
14、所述关键词扩充单元包括:
15、编码模型,用于将所述关键词使用word2vec的方式进行编码;
16、双向lstm网络,用于接收将编码后的词向量,执行推理,输出扩充后的关键词。
17、优选地,所述搜索引擎设有ui界面,ui界面中设置关键词输入框和匹配结果展示框,匹配结果包括按照匹配度由高到低展示的多个结果。
18、一种基于ai的综合信息检索方法,包括步骤:
19、使用预先部署的搜索引擎接收用户输入的关键词;
20、由搜索引擎调用预先构建的ai模型对关键词进行扩充;
21、由搜索引擎根据扩充后的关键词查找摘要信息数据库,得到匹配结果并展示,匹配结果包括与关键词匹配的摘要信息;
22、其中,所述摘要信息数据库中存储来自一个或多个电子设备的摘要信息,各个电子设备上部署所述搜索引擎,由所述搜索引擎定期读取所在电子设备上的本地信息即原始数据,由搜索引擎调用ai模型对读取原始数据进行摘要抽取,生成摘要信息并存储到所述摘要信息数据库中。
23、优选地,所述搜索引擎通过api接口模块读取各个电子设备上的邮箱或app内的数据时,对应的邮箱或app向搜索引擎返回以下参数:
24、location,用于表示邮箱或app所属的电子设备;
25、app_name,用于表示邮箱或app的名字;
26、datetime,用于表示数据产生的日期和时间;
27、summary_info,用于表示邮箱或app内的数据摘要。
28、优选地,所述摘要信息在摘要信息数据库中以如下格式存储:
29、location,用于表示摘要信息对应的原始信息所在的电子设备;
30、path,用于在原始信息是文件的情况下,表示文件存储路径;
31、app_name,用于在原始信息是邮件或app内容的情况下,表示邮箱或app名字;
32、datetime,用于表示原始信息产生的日期和时间;
33、summary_info,用于表示摘要内容。
34、优选地,所述ai模型对读取的数据进行摘要抽取,生成摘要信息,具体包括步骤:
35、输入数据,并对数据进行分类,分为图像数据、视频数据和文本数据,若为图像数据或视频数据,则使用rnn网络进行处理,生成文本数据;
36、对分类得到的文本数据或生成的文本数据进行处理,获取文本数据中每个句子的句向量,通过多种不同的结构对段落、句子进行选择判断,为每个句子进行打分,最终选取最优的top n个句子作为文档摘要。
37、优选地,所述ai模型对关键词进行扩充,包括步骤:
38、将所述关键词使用word2vec的方式进行编码,生成词向量;
39、将编码后的词向量输入训练好的双向lstm网络执行推理,输出扩充后的关键词。
40、优选地,所述搜索引擎以如下任一方式定期访问电子设备:
41、方式一,人工设置周期,即,搜索引擎提供ui界面,ui界面中包括参数设置框,供用户自行设置更新文件信息的周期;
42、方式二、自适应更新周期,即,搜索引擎根据用户检索的频率自适应更新周期,如果用户检索的频率数量级为天,则每天更新文件摘要信息,如果检索频率为周,则每周更新一次,如果检索频率为月,则每月更新一次;
43、方式三、空闲时更新,即,搜索引擎监控磁盘读写状态,在磁盘读写率小于10%时触发文件更新。
44、有益效果:由于采用了上述技术方案,本专利技术具有如下有益效果:
45、本专利技术提出的一种基于ai的综合信息检索系统,将用户所有存储信息的设备组成一个系统,对所有信息进行抽象后汇总到一起,便于查询,设计了一种ai模型对原始信息进行摘要抽取和对关键词进行反向扩充,生成用户想要搜索的内容,该检索方法基于api标准,能够对电子设备的本本文档来自技高网...
【技术保护点】
1.一种基于AI的综合信息检索系统,其特征在于,包括:
2.根据权利要求1所述的基于AI的综合信息检索系统,其特征在于,所述电子设备为本地电脑、远端服务器或移动设备中的任一种或一种以上种的组合。
3.根据权利要求1所述的基于AI的综合信息检索系统,其特征在于:所述搜索引擎设有UI界面,UI界面中设置关键词输入框和匹配结果展示框,匹配结果包括按照匹配度由高到低展示的多个结果。
4.根据权利要求1所述的基于AI的综合信息检索系统,其特征在于,所述AI模型包括摘要抽取单元和关键词扩充单元;
5.一种基于AI的综合信息检索方法,其特征在于,包括步骤:
6.根据权利要求5所述的基于AI的综合信息检索方法,其特征在于,所述搜索引擎通过API接口模块读取电子设备上的邮箱或APP内的数据,对应的邮箱或APP向搜索引擎返回以下参数:
7.根据权利要求5所述的基于AI的综合信息检索方法,其特征在于,所述摘要信息在摘要信息数据库中以如下格式存储:
8.根据权利要求5所述的一种基于AI的综合信息检索方法,其特征在于,所述
9.根据权利要求5所述的一种基于AI的综合信息检索方法,其特征在于,所述AI模型对关键词进行扩充,包括步骤:
10.根据权利要求5所述的一种基于AI的综合信息检索方法,其特征在于,所述搜索引擎以如下任一方式定期访问电子设备:
...【技术特征摘要】
1.一种基于ai的综合信息检索系统,其特征在于,包括:
2.根据权利要求1所述的基于ai的综合信息检索系统,其特征在于,所述电子设备为本地电脑、远端服务器或移动设备中的任一种或一种以上种的组合。
3.根据权利要求1所述的基于ai的综合信息检索系统,其特征在于:所述搜索引擎设有ui界面,ui界面中设置关键词输入框和匹配结果展示框,匹配结果包括按照匹配度由高到低展示的多个结果。
4.根据权利要求1所述的基于ai的综合信息检索系统,其特征在于,所述ai模型包括摘要抽取单元和关键词扩充单元;
5.一种基于ai的综合信息检索方法,其特征在于,包括步骤:
6.根据权利要求5所述的基于ai的综合信息检...
【专利技术属性】
技术研发人员:杨志,李红雁,冯偲,武高宇,崔磊,
申请(专利权)人:宁算南京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。