System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于语义嵌入和结构熵检测的幻觉检测方法及其装置制造方法及图纸_技高网

基于语义嵌入和结构熵检测的幻觉检测方法及其装置制造方法及图纸

技术编号:44336754 阅读:1 留言:0更新日期:2025-02-18 20:47
本申请提出了基于语义嵌入和结构熵检测的幻觉检测方法及其装置;其方法包括:针对输入问题,利用训练好的语言模型生成多个可能的答案集合;使用预训练的句子嵌入模型将每个答案转换为向量,计算它们之间的余弦相似度,从而构建相似性图;通过编码树对相似性图进行表示,计算每个节点的结构熵,以识别语义不确定性较高的节点;采用滑动平均法动态调整阈值,确保高熵输出得以及时标记为幻觉;将被标记为幻觉的答案剔除,确保输出的答案准确性和信息一致性。本发明专利技术有效提升了模型在复杂问题上的表现,减少了误导性信息的生成。初步实验表明,该方法在多个数据集上显著降低了幻觉输出的比例,增强了生成答案的语义一致性和准确性。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,具体涉及基于语义嵌入和结构熵检测的幻觉检测方法及其装置


技术介绍

1、在医学领域,尤其是在疾病诊断和治疗咨询的场景中,信息的准确性至关重要。例如,在食管癌的诊断和治疗建议中,错误的信息不仅可能误导患者,还可能影响患者的生命安全。因此,确保大型语言模型生成内容的可靠性与准确性,成为当前研究的一个重要课题。随着人工智能技术的迅猛发展,自然语言处理(nlp)领域取得了显著进展。大型语言模型(llm)因其强大的文本生成和理解能力,被广泛应用于问答系统、生成式对话、文本摘要和机器翻译等多种任务。然而,这些模型在生成内容时,仍然面临着虚假或不准确输出的风险,尤其在涉及敏感领域如医疗、法律和金融时,这种风险可能导致严重后果。

2、现有的方法在实际应用中仍存在一定的局限性,难以全面解决虚假信息的检测问题。为此,开发一种新的幻觉检测系统,能够融合语义嵌入与结构熵,显得尤为重要。这一创新不仅能够提升大型语言模型在医疗问答中的表现,还能在医疗等高风险领域中降低虚假输出的风险,从而为用户提供更加安全和可靠的服务。为了解决这一问题,研究者们开始探索多种技术手段。结构熵作为信息论中的重要概念,有效衡量信息的分布与不确定性,通过分析文本中的信息结构,帮助识别潜在的虚假输出。同时,语义嵌入技术通过对生成内容与真实数据之间的语义相似度进行分析,进一步提高内容的可信度。这些技术的结合,为提升大型语言模型的可靠性提供了新的思路。


技术实现思路

1、为解决上述问题,本专利技术提供了一种基于语义嵌入和结构熵检测的幻觉检测方法。

2、为实现上述技术方案,具体步骤如下;

3、一种基于融合语义嵌入与结构熵的幻觉检测方法,包括以下步骤:

4、s1、采集有关食管癌的数据;通过多维度的数据采集策略,为后续的幻觉检测提供了丰富而可靠的数据基础,确保系统在食管癌检测中的评估更加科学和有效;

5、为了有效评估大型语言模型在食管癌检测中的表现,数据采集至关重要;此过程旨在获取相关问答,以分析模型生成内容的准确性和可靠性;

6、采集的数据包括:临床数据、数据库资料数据和真实病例数据;

7、临床数据包括:临床问题和标准答案;临床问题即收集患者和医生遇到的实际问题;如“食管癌的早期症状是什么?”和“常见治疗方法有哪些?”;标准答案即从权威医学文献和临床

8、数据库资料包括:医学文献、临床指南和在线问答平台;医学文献即针对食管癌的研究通过查阅相关学术论文和系统评价,得到对应的解决方法;临床指南既提取美国癌症学会发布的临床指南中针对食管癌的研究的信息;在线问答平台既使用healthtap和webmd收集食管癌患者与医生的互动问答来反映真实的临床疑问;

9、真实病例数据即收集确诊食管癌患者的症状描述和诊断结果,包括:医疗机构的病历记录和专业期刊的病例报道;

10、这些数据提供了真实病例的症状和多样性,有助于构建相关问题;

11、s2、对采集到的数据进行预处理;

12、数据预处理是确保模型生成的答案和临床问题具有一致性和准确性的关键步骤;包括以下步骤:

13、s2.1、数据清洗;数据清洗阶段目标是去除采集的数据中噪声和不一致性,以确保数据的纯净性和可用性;具体步骤如下:

14、s2.1.1、去除多余字符,消除潜在的干扰信息,使数据更易于分析;

15、具体的,去除多余字符即清理文本数据中的特殊字符和无关的标点符号等,以确保文本内容的整洁;

16、s2.1.2、纠正拼写错误;准确的文本输入能提升后续模型的学习效果;

17、具体的,使用拼写检查工具识别并纠正文本中的拼写错误,增强数据的可读性和准确性;

18、s2.1.3、处理缺失值,确保了数据的完整性,避免了因缺失信息导致的分析偏差;

19、具体的,通过人工识别采集的数据中缺失的临床问题或答案,决定是填充、删除还是保留原样,以保证数据集的完整性;

20、s2.2、数据标准化;将清洗后的数据转换为统一格式,便于后续分析和输入;具体步骤如下:

21、s2.2.1、文本规范化;使得模型在处理文本时更加高效;

22、具体的,通过将所有文本数据转换为小写,以减少大小写差异对分析的影响,并去除多余的空格和换行符,从而确保文本格式的一致性;

23、s2.2.2、数值标准化;通过将数值数据转换为相同的尺度,提高模型的训练效果,确保各特征在模型学习中同等重要;

24、具体的,对于将患者症状相关的数值数据(如年龄、肿瘤大小)进行标准化处理,以消除不同量纲对分析的影响;

25、通过数据预处理,建立了坚实的数据基础,以支持模型在食管癌检测中的准确性和可靠性,处理后的数据用于超参数的确定;

26、s3、对处理后的数据进行幻觉检测并输出最终答案;步骤如下:

27、s3.1、将处理后的数据输入大型语言模型(gpt-4)中训练模型;

28、s3.2、通过构建训练好的模型生成的答案间的相似性图,生成的相似性图用以后面结构熵的计算;步骤如下:

29、s3.2.1、将问题输入训练好的模型中,生成多个相应的答案s(i)并收集答案s(i)形成答案集a,表达式如下:

30、a=s(i),i取决于问题的数量,其中i∈(1,n),n为自然整数;

31、s3.2.2、采用语义嵌入检测方法生成答案之间语义相似度;

32、具体的,使用基于bert模型的句向量提取方法(sentence-bert)将每个生成的答案s(i)转换为嵌入向量e(i),并使用余弦相似度计算语义相似度;

33、转换的表达式如下:

34、e(i)=sbert(s(i));

35、余弦相似度的表达式如下:

36、i取决于问题的数量;

37、i,j∈(1,n),n为自然整数,i≠j

38、式中,e(i)·e(j)表示向量的点积,能够反映两个向量的相似方向;‖e(i)‖‖e(j)‖是向量的范数,确保了相似度值在0到1之间,值越接近1表示越相似;

39、s3.2.3、通过余弦相似度的结果构建相似性图;

40、具体的,通过在无向图g中添加一条带权重的边以得到相似性图;

41、无向图g的表达式如下:

42、g=(v,e)

43、式中,v是顶点集合,既每个生成的答案s(i)对应于图中的一个顶点;e是边集合,既通过计算答案之间的余弦相似度,根据余弦相似度高低添加边,余弦相似度高的答案之间的边权重较高,反之则较低;

44、进一步的,根据经验统计设定阈值θb,用于判断两个答案是否足够相似以建立连接;对于每对答案s(i)和s(j),如果其相似度高于阈值θb,则在无向图g中添加一条带权重的边,权重为余弦本文档来自技高网...

【技术保护点】

1.一种基于语义嵌入和结构熵检测的幻觉检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于语义嵌入和结构熵检测的幻觉检测方法,其特征在于,所述对处理后的数据进行幻觉检测并输出最终答案的步骤如下:

3.根据权利要求2所述的一种基于语义嵌入和结构熵检测的幻觉检测方法,其特征在于,所述通过构建训练好的模型生成的答案间的相似性图的具体步骤如下:

4.根据权利要求2所述的一种基于语义嵌入和结构熵检测的幻觉检测方法,其特征在于,所述基于所述相似性图计算结构熵的表达式如下:

5.根据权利要求2所述的一种基于语义嵌入和结构熵检测的幻觉检测方法,其特征在于,所述通过优化结构熵进行检测幻觉的步骤如下:

6.根据权利要求1所述的一种基于语义嵌入和结构熵检测的幻觉检测方法,其特征在于,所述基于幻觉标记给出正确答案的步骤如下:

7.一种基于语义嵌入和结构熵检测的幻觉检测装置,其特征在于,所述装置用于执行权利要求1-6中任一项所述的基于语义嵌入和结构熵检测的幻觉检测方法。

【技术特征摘要】

1.一种基于语义嵌入和结构熵检测的幻觉检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于语义嵌入和结构熵检测的幻觉检测方法,其特征在于,所述对处理后的数据进行幻觉检测并输出最终答案的步骤如下:

3.根据权利要求2所述的一种基于语义嵌入和结构熵检测的幻觉检测方法,其特征在于,所述通过构建训练好的模型生成的答案间的相似性图的具体步骤如下:

4.根据权利要求2所述的一种基于语义嵌入和结构熵检测的幻觉检测方法,其特征在于,...

【专利技术属性】
技术研发人员:彭浩王杰聪苏丁力解勤思祁雪殷飞
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1