一种面向多源异构本地知识库的大模型语音问答系统技术方案

技术编号：41740819 阅读：7 留言：0更新日期：2024-06-19 13:00

本发明专利技术公开了一种面向多源异构本地知识库的大模型语音问答系统，包括：多源异构本地知识库处理模块，考虑本地知识库数据来源、结构、类型等方面的多样性，设计基于语义完整性的切割方式构建向量数据库；基于本地知识库的大模型推理模块，提供行业知识库专属的匹配阈值，进行增量式动态更新，并实现与行业知识库之间自适应上下文匹配，以解决大模型推理本地知识冗余或匮乏问题；人机语音交互模块，引入虚拟数字人和语音交互接口实现模型与用户的“人工”沟通，实现良好的人机交互。本发明专利技术将各行业复杂多样的本地知识库进行了统一处理和自适应匹配，实现了低成本、高效率、一站式的大模型语音问答系统部署。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及垂类大模型应用的，尤其是指一种面向多源异构本地知识库的大模型语音问答系统。

技术介绍

1、近来年，以chatgpt为代表的生成式人工智能工具迅速火爆起来；以其在自然语言处理、计算机视觉、强化学习等领域展现出的卓越的性能，成为迈向通用人工智能时代的历史性节点之一。随着模型的快速更迭不断完善，通用生成式人工智能目前已经显示出巨大的应用潜力和商业价值，并引起了各个领域的广泛关注。

2、当今大模型的任务类型正由封闭场景转向开放任务，基于多样化的应用场景，结合本地和专业知识库，由通用式人工智能向服务于各行业的专用式人工智能转化。然而行业内现存数据有着巨大差异，且大部分本地数据有着敏感性、安全性等方面需要考虑的问题，导致目前人工智能的生产范式属于典型的手工设计模式，即专用人工智能部署需要针对每个细分场景开发专属的处理流程；同时大模型的垂类应用也缺乏人机交互良好的一站式部署系统；进而导致人工智能开发周期长，落地成本高，这成为生成式大语音模型规模化应用亟待突破的制约。

技术实现思路

1、本专利技术的目的在于针对目前生成式人工智能应用的缺陷，提供一种面向多源异构本地知识库的大模型语音问答系统，以解决目前垂类大模型部署差异性大、成本高，对话安全性和精准性有限等方面问题。

2、为实现上述目的，本专利技术所提供的技术方案为：一种面向多源异构本地知识库的大模型语音问答系统，包括：多源异构本地知识库处理模块、基于本地知识库的大模型推理模块和人机语音交互模块；

4、所述大模型推理模块利用所提出的自适应知识库匹配方法，对知识库专属阈值进行基于高斯函数的增量式动态更新，在专属阈值基础上计算语义聚类中心的l1范数实现相似度度量，并根据行业知识库与问答相关度的多样性，进行无固定条数的动态上下文匹配，实现基于多源异构本地知识库且满足行业安全性和精准性需求的专用大模型推理；

5、所述人机语音交互模块用于实现大模型与用户在语音和视觉上的交互，基于行业指定的服务画像，使用语音进行虚拟数字人面部表情和口型的驱动，实现模型透明的“人工”交互方式。

6、进一步，所述多源异构本地知识库处理模块考虑本地数据来源、结构、类型、格式的多样性，将复杂、多样的行业数据按照语义完整性进行统一的转换，旨在满足多行业的适配性，包括以下步骤：

7、1)采集行业问答相关知识库：对于多模态数据场景，提取所需模态的文本知识库，以避免信息冗余和检索困难，并匹配问答需求，构建本地文本知识库：d＝{d1,d2,…di,…,dn}，其中di代表具体行业中第i个多源异构的文本知识库，考虑行业知识库的实际存在形式，di包含不同数据类型和多种文件格式，所述数据类型包括表格和文档，所述文件格式包括json、pdf和xml；

8、2)语义完整性分割：将文本信息分为结构化和非结构化数据，指定单条子数据长度上限阈值为τ，参照语义完整性进行文本切割，分割知识库：di＝{di1,di2,…,dij,…,din}，其中dij表示第i个知识库中第j条切割子数据；

9、3)数据库转换，利用向量嵌入模型embed(·)将文本数据转换为向量数据，构建文本向量二元组：

10、vij＝embedm(dij)

11、di＝{(di1,vi1),(di2,vi2),…,(dij,vij),…,(din,vin)}

12、式中，embedm(dij)表示将指定长度上限阈值τ的单位文本信息嵌入到固定长度为m的本地知识库向量数据vij，将子数据集dij转换为文本-向量二元组(dij,vij)。

13、进一步，所述语义完整性分割将本地数据划分为结构化与非结构化数据，对于结构化数据，按照独立数据单位进行分割；对于非结构化数据，按照优先级：子数据长度上限阈值τ>段>句的方式进行分割，即在长度上限阈值内，优先以段、句为单位进行语义化分割，以最大化保留转换后子数据的语义完整性。

14、进一步，所述大模型推理模块考虑不同行业数据和不同查询问题需要上下文信息量的差异性，设计自适应知识库匹配方法，以解决大语言模型推理时本地知识冗余或匮乏问题，包括以下步骤：

15、1)将用户查询语音转换为查询文本，并将查询文本嵌入为向量，以便进行上下文匹配：

16、vq＝embedm(qs)

17、式中，qs为初始查询文本，经过与本地知识库处理时相同的embedm(·)模型后，将初始查询文本转化为长度为m的向量数据，即查询向量vq；

18、2)向量相似度距离计算：将查询文本映射到相同维度的向量数据，引入fasis向量匹配，将数据的各维度依照语义进行聚类，提高匹配精度和效率，文本间相似度表述为：

19、ds＝||vq-vij||1

20、式中，||·||1为向量间的l1范数，ds表示查询向量vq与本地知识库向量数据vij之间的相似度，向量间范数越小，表示相似度越大，当l1范数为0时，表示两向量完全相同；

21、3)设置行业知识库专属相似度阈值，由从业人员基于行业知识库生成阈值序列{μ1,μ2,…,μi,…,μn}，基于阈值序列利用高斯函数建模，获取可增量式更新的分级知识库阈值：

22、

23、δ∈{μ+p*σ|p＝0,±1,±2,…}

24、式中，μi代表行业第i个知识库匹配阈值，μ表示阈值序列均值，σ为阈值高斯分布的修正标准差，δ为行业相似度匹配阈值，p为超参数，控制匹配阈值的取值，基于高斯函数的概率密度分布，以标准差为单位，将相似度匹配阈值δ分为多级，根据行业需求选择具体等级；

25、4)本地知识库匹配，设计自适应知识库匹配方法：

26、

27、式中，q表示初始查询文本qs与相似度检索文本的组合，初始化为q＝qs，concat(q,dij)表示文本拼接，ds_max表示知识库中与查询文本相似度最高的单位数据文本，δ为行业知识库相似度阈值，在向量数据库进行迭代生成q；

28、5)结合本地知识库的大语言模型推理：

29、r＝llmθ(q)

30、式中，r表示基于本地知识库的推理结果，llmθ(·)表示可选大模型接口，支持本地部署微调大模型和远端调用大模型api，θ表示预训练后的大语言模型参数。

31、进一步，自适应知识库匹配方法基于行业知识库专属的相似度阈值，如果计算的l1范数低于行业知识库相似度阈值δ，则应将低于阈值的数据统一作为上下文输入，如果所给知识库数据与查询向量的l1范数均高于阈值，则选取相似度最接近的一条数据进行输入；所述自适应知识库匹配方法克服上下文匹配过程中行业信息冗余或者匮乏问题，以实现本地知识库与查询上下文需求的自适本文档来自技高网...

【技术保护点】

1.一种面向多源异构本地知识库的大模型语音问答系统，其特征在于，包括：多源异构本地知识库处理模块、基于本地知识库的大模型推理模块和人机语音交互模块；

2.根据权利要求1所述的一种面向多源异构本地知识库的大模型语音问答系统，其特征在于，所述多源异构本地知识库处理模块考虑本地数据来源、结构、类型、格式的多样性，将复杂、多样的行业数据按照语义完整性进行统一的转换，旨在满足多行业的适配性，包括以下步骤：

3.根据权利要求2所述的一种面向多源异构本地知识库的大模型语音问答系统，其特征在于，所述语义完整性分割将本地数据划分为结构化与非结构化数据，对于结构化数据，按照独立数据单位进行分割；对于非结构化数据，按照优先级：子数据长度上限阈值τ>段>句的方式进行分割，即在长度上限阈值内，优先以段、句为单位进行语义化分割，以最大化保留转换后子数据的语义完整性。

4.根据权利要求1所述的一种面向多源异构本地知识库的大模型语音问答系统，其特征在于，所述大模型推理模块考虑不同行业数据和不同查询问题需要上下文信息量的差异性，设计自适应知识库匹配方法，以解决大语言

5.根据权利要求4所述的一种面向多源异构本地知识库的大模型语音问答系统，其特征在于，自适应知识库匹配方法基于行业知识库专属的相似度阈值，如果计算的L1范数低于行业知识库相似度阈值δ，则应将低于阈值的数据统一作为上下文输入，如果所给知识库数据与查询向量的L1范数均高于阈值，则选取相似度最接近的一条数据进行输入；所述自适应知识库匹配方法克服上下文匹配过程中行业信息冗余或者匮乏问题，以实现本地知识库与查询上下文需求的自适应匹配。

6.根据权利要求1所述的一种面向多源异构本地知识库的大模型语音问答系统，其特征在于，所述人机语音交互模块提供语音文本转换接口，进行文本语音切换，并基于开源模型SadTalker实现数字人表情和口型的驱动，包括以下步骤：

...

【技术特征摘要】

4.根据权利要求1所述的一种面向多源异构本地知识库的大模型语...

【专利技术属性】
技术研发人员：阳先令，余志文，杨楷翔，黄思泳，张柳坚，张子骁，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人