System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机数据处理,特别涉及一种基于私有知识库的llm问答平台搭建方法及系统。
技术介绍
1、目前,智能问答越趋流行,应用到了很多领域,比如:智能语音助手、智能迎宾等。
2、但是,一般的智能问答都局限于qa数据库模式,则提前为每一问题q设置对应的答案a,当用户提问问题q时,输出对应答案a。这样做存在两点不足:1、直接输出预设好的答案比较死板,用户体验较差;2、预设好的答案往往比较简单,内容不够丰富,局限性较大。
3、因此,亟需一种解决办法。
技术实现思路
1、本专利技术目的之一在于提供了一种基于私有知识库的llm问答平台搭建方法及系统,引入私有知识库,基于topn配置库和llm模型,搭建问答平台,使得系统可以自适应根据用户提问输出丰富的答案,提升用户体验,克服了传统qa数据库模式答案内容不够丰富的局限性。
2、本专利技术实施例提供的一种基于私有知识库的llm问答平台搭建方法,包括:
3、步骤s1:创建私有知识库;
4、步骤s2:对私有知识库进行向量化处理,获得向量知识库;
5、步骤s3:对向量知识库进行topn配置,获得topn配置库;
6、步骤s4:基于私有知识库,训练llm模型;
7、步骤s5:基于topn配置库和llm模型,搭建问答平台。
8、优选的,步骤s1:创建私有知识库,包括:
9、采集与目标领域相关的数据文档;数据文档包括:行业报告、学术论
10、对数据文档进行预处理,获得预处理结果;
11、对预处理结果进行知识表示及结构化处理,获得待入库数据;
12、基于待入库数据,创建私有知识库;
13、定时更新及维护私有知识库;
14、其中,采集与目标领域相关的数据文档,包括:
15、从外部数据源获取数据文档;
16、和/或,
17、内部整理出数据文档;
18、和/或,
19、从合作数据源共享获取数据文档;
20、其中,对数据文档进行预处理,包括:
21、对数据文档进行分词、去除停用词、词干化、词形还原、去重、去噪、文本清洗、标准化、词性标注处理;
22、其中,对预处理结果进行知识表示及结构化处理,包括:
23、对预处理结果中的文本进行语义标注;
24、识别出预处理结果中的文本的实体、关键词以及各文本之间的关联关系;
25、基于实体、关键词及关联关系,构建知识图谱及数据模型;
26、其中,定时更新及维护私有知识库,包括:
27、基于自动化更新模板,自动化更新私有知识库;
28、和/或,
29、当外部数据源更新时,同步更新私有知识库;
30、和/或,
31、基于用户提供的新知识,更新私有知识库。
32、优选的,步骤s2:对私有知识库进行向量化处理,获得向量知识库,包括:
33、对私有知识库中的知识文本进行特征提取,获得知识特征;
34、基于知识特征,进行向量表示,获得知识向量;
35、对知识向量进行归一化处理;
36、将当前的私有知识库作为向量知识库;
37、其中,特征提取及向量表示可由如下方法完成:
38、词袋模型、tf-idf方法、word2vec模型和glove方法。
39、优选的,步骤s3:对向量知识库进行topn配置,获得topn配置库,包括:
40、获取查询文档;
41、对查询文档进行特征提取,获得文档特征;
42、基于文档特征,构建查询向量;
43、从向量知识库中确定查询文档对应的topn知识向量列表,并与查询向量之间建立索引关系;topn知识向量列表中有与查询文档相关程度topn的知识向量。
44、优选的,步骤s5:基于topn配置库和llm模型,搭建问答平台,包括:
45、获取预设的初始平台;
46、配置初始平台的前端交互界面;
47、基于topn配置库和llm模型,配置初始平台的后端服务资源;
48、将当前的初始平台作为问答平台;
49、定时获取问答平台的平台优化依据;平台优化依据包括:用户反馈和性能评估历史;
50、基于平台优化依据,对问答平台进行优化。
51、优选的,基于私有知识库的llm问答平台搭建方法,还包括:
52、为问答平台开设群组问答窗口;
53、对群组问答窗口进行窗口配置;
54、其中,对群组问答窗口进行窗口配置,包括:
55、当多人聊天群组触发群组问答窗口时,获取多人聊天群组最近预设的时间内产生的聊天记录和对应的聊天时间区间;
56、基于聊天时间区间,将聊天记录设置于预设的时间轴线上;
57、从时间轴线上确定符合连续聊天记录序列条件的连续聊天记录序列;
58、对连续聊天记录序列中的序列末尾的聊天记录进行语义提取,获得第一语义;
59、将第一语义与预设的提问语义库中的第二语义进行匹配;
60、当匹配符合时,将匹配符合的第二语义作为问答平台的提问输入;否则,对连续聊天记录序列中除序列末尾的聊天记录的其他聊天记录进行语义提取,获得语义集;
61、将语义集与提问语义库中的标准语义集进行匹配;
62、当匹配符合时,将匹配符合的标准语义集对应的预设的总结语义作为问答平台的提问输入;
63、其中,连续聊天记录序列条件包括:
64、连续聊天记录序列中连续的聊天记录的总数q大于等于预设的数目阈值;
65、连续聊天记录序列中两两相邻聊天记录的聊天时间区间之间的最短时间间隔小于等于预设的时间阈值;
66、连续聊天记录序列中前w个聊天记录的第一发言人与后e个聊天记录的第二发言人存在重合;
67、连续聊天记录序列中的中间r个聊天记录中存在至少n个目标情形;目标情形包括:至少两个聊天记录的聊天时间区间之间存在重合;
68、r=q-w-e;r大于等于预设的目标阈值。
69、优选的,基于私有知识库的llm问答平台搭建方法,还包括:
70、为问答平台开设开放问答接口;
71、对开放问答接口进行接口配置;
72、其中,对开放问答接口进行接口配置,包括:
73、基于预设的网络广播模板,广播预设的问答接口开放信息;
74、监听开放问答接口接入请求;
75、对开放问答接口接入请求进行安全验证;
76、当验证通过后,允许开放问答接口接入请求;
77、其中,对开放问答接口接入请求本文档来自技高网...
【技术保护点】
1.一种基于私有知识库的LLM问答平台搭建方法,其特征在于,包括:
2.如权利要求1所述的一种基于私有知识库的LLM问答平台搭建方法,其特征在于,所述步骤S1:创建私有知识库,包括:
3.如权利要求1所述的一种基于私有知识库的LLM问答平台搭建方法,其特征在于,所述步骤S2:对所述私有知识库进行向量化处理,获得向量知识库,包括:
4.如权利要求1所述的一种基于私有知识库的LLM问答平台搭建方法,其特征在于,所述步骤S3:对所述向量知识库进行TopN配置,获得TopN配置库,包括:
5.如权利要求1所述的一种基于私有知识库的LLM问答平台搭建方法,其特征在于,所述步骤S5:基于所述TopN配置库和所述LLM模型,搭建问答平台,包括:
6.如权利要求1所述的一种基于私有知识库的LLM问答平台搭建方法,其特征在于,还包括:
7.如权利要求1所述的一种基于私有知识库的LLM问答平台搭建方法,其特征在于,还包括:
8.一种基于私有知识库的LLM问答平台搭建系统,其特征在于,包括:
9.如权利要求
10.如权利要求8所述的一种基于私有知识库的LLM问答平台搭建系统,其特征在于,所述向量化处理处理模块对所述私有知识库进行向量化处理,获得向量知识库,包括:
...【技术特征摘要】
1.一种基于私有知识库的llm问答平台搭建方法,其特征在于,包括:
2.如权利要求1所述的一种基于私有知识库的llm问答平台搭建方法,其特征在于,所述步骤s1:创建私有知识库,包括:
3.如权利要求1所述的一种基于私有知识库的llm问答平台搭建方法,其特征在于,所述步骤s2:对所述私有知识库进行向量化处理,获得向量知识库,包括:
4.如权利要求1所述的一种基于私有知识库的llm问答平台搭建方法,其特征在于,所述步骤s3:对所述向量知识库进行topn配置,获得topn配置库,包括:
5.如权利要求1所述的一种基于私有知识库的llm问答平台搭建方法,其特征在于,所述步骤s5:基于所述t...
【专利技术属性】
技术研发人员:吴珂皓,吕杨斌,杨光,郭敏,薛逢源,刘超,李青青,
申请(专利权)人:珠海盈米基金销售有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。