System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于人工智能,更具体地说,尤其涉及结合知识图谱的私有知识问答方法。
技术介绍
1、随着大数据和人工智能技术的迅速发展,企业在日常运营中积累了海量的私有数据。这些数据的类型多样,包括技术文档、业务报告、用户反馈和行业研究资料等。这些信息蕴含着丰富的知识和洞察力,能够为企业的战略决策、市场分析和产品开发提供支持。然而,传统的问答系统在处理这些私有数据时,面临着一系列挑战。
2、首先,传统问答系统在检索效率上往往不尽如人意。由于数据量庞大,系统可能在获取相关信息时耗费过多时间,导致用户等待时间过长,影响整体工作效率。此外,传统系统在理解深度方面也存在不足,常常无法充分解析用户的问题背景和上下文信息。这种理解能力的缺失使得系统无法生成高质量的答案,进而限制了用户的信息获取与决策支持能力。
3、近年来,检索增强生成(rag)技术作为一种新兴的方法,展现出显著的优势。rag技术通过将知识源与大型语言模型(llm)相结合,有效提升了问答系统的性能。该技术能够利用大规模数据集中的信息,为用户提供更加精准且上下文相关的回答,极大地改善了信息检索的准确性。然而,尽管rag系统在许多场景中表现出色,在处理复杂查询时,尤其是在需要深度理解和综合多个信息源的情况下,仍然面临挑战。这些局限性导致在某些业务场景中,用户仍然无法得到满意的答案,影响了决策的有效性。
技术实现思路
1、针对现有技术存在的问题,本专利技术的目的是提供结合知识图谱的私有知识问答方法,通过智能化识别实体与
2、为实现上述目的,本专利技术提供如下技术方案:结合知识图谱的私有知识问答方法,包括如下步骤:
3、s1、私有基础语料收集:根据私有知识问答的领域,获取相应领域的基础语料信息;
4、s2、对采集的基础语料信息进行融合:通过融合算法将不同来源的基础语料信息进行融合,并且将基础语料信息转换生成文本信息;
5、s3、建立知识图谱:对生成的文本信息进行实体识别与关系抽取,以向量化结构形式将向量数据信息进行存储;
6、s4、向量数据信息进行分区:针对识别到的实体和关系的向量数据信息进行社区划分,得到社区介绍;
7、s5、知识图谱构建:对社区划分的向量数据信息进行向量化处理,构建知识图谱,并且使用图数据库对知识图谱进行存储和管理;
8、s6、对用户问题进行处理:通过自然语言处理技术对用户输入的问题进行解析,识别出问题中的实体、关系和意图识别;
9、s7、用户问题答案检索与生成:基于用户的自然语言问题,转化为图谱查询语言来查询图谱中的数据;通过推理引擎推断出潜在的答案;
10、s8、用户问题答案输出:通过图谱查询结果或推理结果,生成最终的答案,并以用户友好的方式展示;根据用户的反馈,不断优化系统的查询能力和知识图谱的准确性。
11、具体的,所述s1中的私有基础语料是企业在日常运营中积累的大量私有数据,包括技术文档、业务报告、用户反馈以及行业研究资料;并且私有基础语料来自不同的格式,包括文本、表格和数据库。
12、具体的,所述私有基础语料在收集后,对私有基础语料进行预处理,且预处理中包括数据滤波、清洗和缺失值补偿;
13、所述数据滤波的计算公式如下:
14、对于每个数据信息xi采用中值滤波处理;
15、
16、其中,yi表示滤波后的输出基础语料信息;s表示尺度的数量;ws表示尺度s的权重,用于对不同尺度的滤波结果进行加权平均;表示在尺度s下对数据信息进行中值滤波的结果,具体来说,是在尺度s下的窗口范围内的所有数据信息,即这一尺度下的邻域数据信息;windows代表尺度s对应的邻域窗口,xj表示为输入的基础语料信息。
17、具体的,所述清洗通过均值的差值除以标准差,得到数据信息的z-score,实现对基础语料信息中的异常值进行检测;
18、其中,x是基础语料信息;μ是基础语料信息的均值;σ是基础语料信息的标准差;
19、并且,对于异常值的判定为z>2,则判定数据信息为异常值,若z<2,则判定基础语料信息为正常值,并且对于异常值进行剔除;
20、并且对于异常值剔除的空位,以及缺失值补偿通过均值进行填补,且均值的计算如下:
21、其中,xi是基础语料信息中的第i个数值;n是基础语料信息的总个数;表示所有基础语料信息的总和。
22、具体的,所述s2中的文本信息处理包括:
23、数据清洗:使用字符集过滤器对文本进行处理,以去除非标准字符,包括特殊符号、控制字符和多余的空白,识别并删除不符合预期字符集的字符,确保文本中只保留字母、数字和空格等标准字符;
24、文本查重:使用jaccard相似度算法进行文本查重,定义为两个集合交集的大小与并集的大小之比;给定两个文本集合和,其jaccard相似度用以下公式表示:
25、其中,a表示为一个文本集合,b表示为另一个文本集合,首先将文本分割为词语或短语的集合,然后计算任意两个文本集合的交集|a∩b|和并集|a∪b|,若jaccard相似度j超过预设阈值0.8,则视为重复文本并予以删除;
26、文本格式化:在文本格式化阶段,将所有文本统一编码为utf-8格式,以确保在同一字符编码下进行处理,同时,将文本中的所有字符转换为小写形式,以提高后续处理的一致性。
27、具体的,所述s3涉及到的实体识别与关系抽取具体实现方法为:
28、使用经过微调的大型语言模型对文本单元进行实体识别与实体间关系抽取,应该包含实体描述、与实体相关的实体关系,并进行向量化处理与保存。
29、具体的,所述s4中涉及到的向量数据信息进行社区划分具体实现方法为:
30、使用社区检测算法针对识别到的实体进行划分,将具有紧密联系的实体划分为同个社区,得到n个社区,理论上n≥0,并针对识别到的社区添加社区介绍,社区介绍应包括社区信息、社区内的实体及实体间的关系。
31、具体的,所述s5中涉及到的知识图谱构建具体实现方法为:
32、基于已识别到的实体、实体间的关系和社区介绍进行知识图谱构建,并选择合适的图数据库进行保存。
33、具体的,所述s6中涉及到的识别出问题中的实体、关系和意图识别具体实现方法为:
34、用户问题预处理:
35、对用户输入的问题进行文本清洗,包括去除多余的空格、标点符号,以提高后续处理的准确性;进行分词和词性标注,以便更好地理解用户的意图和问题结构;
36、关键实体识别:
37、使用经过微调的大型语言模型,对用户问题进行分析,识别出关键实体,包括人名、地点、时间或者事件;
...
【技术保护点】
1.结合知识图谱的私有知识问答方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的结合知识图谱的私有知识问答方法,其特征在于:所述S1中的私有基础语料是企业在日常运营中积累的大量私有数据,包括技术文档、业务报告、用户反馈以及行业研究资料;并且私有基础语料来自不同的格式,包括文本、表格和数据库。
3.根据权利要求2所述的结合知识图谱的私有知识问答方法,其特征在于:所述私有基础语料在收集后,对私有基础语料进行预处理,且预处理中包括数据滤波、清洗和缺失值补偿;
4.根据权利要求3所述的结合知识图谱的私有知识问答方法,其特征在于:所述清洗通过均值的差值除以标准差,得到数据信息的Z-score,实现对基础语料信息中的异常值进行检测;
5.根据权利要求1所述的结合知识图谱的私有知识问答方法,其特征在于:所述S2中的文本信息处理包括:
6.根据权利要求1所述的结合知识图谱的私有知识问答方法,其特征在于:所述S3涉及到的实体识别与关系抽取具体实现方法为:
7.根据权利要求1所述的结合知识图谱的私有知识问答方法,其特征在
8.根据权利要求1所述的结合知识图谱的私有知识问答方法,其特征在于:所述S5中涉及到的知识图谱构建具体实现方法为:
9.根据权利要求1所述的结合知识图谱的私有知识问答方法,其特征在于:所述S6中涉及到的识别出问题中的实体、关系和意图识别具体实现方法为:
10.根据权利要求1所述的结合知识图谱的私有知识问答方法,其特征在于:所述S7中涉及到的用户问题答案检索与生成,以及所述S8中的用户问题答案输出具体实现方法为:
...【技术特征摘要】
1.结合知识图谱的私有知识问答方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的结合知识图谱的私有知识问答方法,其特征在于:所述s1中的私有基础语料是企业在日常运营中积累的大量私有数据,包括技术文档、业务报告、用户反馈以及行业研究资料;并且私有基础语料来自不同的格式,包括文本、表格和数据库。
3.根据权利要求2所述的结合知识图谱的私有知识问答方法,其特征在于:所述私有基础语料在收集后,对私有基础语料进行预处理,且预处理中包括数据滤波、清洗和缺失值补偿;
4.根据权利要求3所述的结合知识图谱的私有知识问答方法,其特征在于:所述清洗通过均值的差值除以标准差,得到数据信息的z-score,实现对基础语料信息中的异常值进行检测;
5.根据权利要求1所述的结合知识图谱的私有知识问答方法,其特征在于:...
【专利技术属性】
技术研发人员:阎翼桥,王烁,江祎珑,朱一帆,谷大武,孙士锋,
申请(专利权)人:无锡市区块链高等研究中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。