一种基于多类型病历文本的结构化信息提取方法技术

技术编号：44804278 阅读：1 留言：0更新日期：2025-03-28 19:53

本发明专利技术属于信息提取技术领域，本发明专利技术公开了一种基于多类型病历文本的结构化信息提取方法，主要针对结构化信息提取前的准备阶段，旨在将复杂度过高的病历文本转化为简化文本，以方便后续的信息提取工作，首先对收集到的各种类型病历文本数据进行预处理，形成高维向量，接着，利用高斯混合模型构建异常检测模型，优化模型的准确性和鲁棒性，随后，根据模型输出的复杂度状态信号，对不符合标准的病历文本通过余弦相似度寻找最相似的参考文本以生成简化文本，并进行拼写和语法校验以提升文本质量，从而全面提高医疗数据分析的效率和准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息提取，更具体地说，本专利技术涉及一种基于多类型病历文本的结构化信息提取方法。

技术介绍

1、随着医疗信息化的发展，病历文档的数字化已成为趋势，然而，由于病历文本的复杂性和多样性，如何高效地从多类型病历文本中提取结构化信息成为了一大挑战，传统的方法通常依赖于人工审查，不仅耗时耗力，而且容易出错。近年来，随着自然语言处理(nlp)技术的进步，自动化的病历文本处理方法逐渐成为研究热点。

2、现有的病历文本处理技术主要包括文本分类、信息抽取、情感分析等。这些技术大多基于机器学习或深度学习算法，如支持向量机(svm)、卷积神经网络(cnn)和长短时记忆网络(lstm)。尽管这些方法在一定程度上提高了病历文本处理的效率和准确性，但它们主要集中在对单一类型病历文本的处理上，对于多类型病历文本的结构化信息提取仍存在一些不足：例如，通用性差，大多数方法针对特定类型的病历文本进行了优化，难以直接应用于其他类型的病历文本；复杂度管理不足，现有的技术往往没有专门针对病历文本复杂度的评估机制，无法有效识别和处理复杂度过高的文本；自动化程度不高，虽然有部分自动化工具，但在文本纠错和精简方面仍然需要较多的人工干预。

技术实现思路

1、为了克服现有技术的上述缺陷，为实现上述目的，本专利技术提供如下技术方案：一种基于多类型病历文本的结构化信息提取方法，包括：

2、s1、采集原始病历文本数据，进行预处理，并构建高维向量；

3、s2、构建异常检测模型，将高维向量作为

4、s3、基于复杂度状态信号，对复杂度不合格的病历文本进行处理和纠错，并转换为简化文本。

5、进一步地，所述进行预处理的方式为文本清洗和标准化；

6、所述构建高维向量的方式包括：

7、提取病历文本的相关特征，结合词汇多样值和句法结构复杂度，构建高维向量；

8、其中，病历文本的相关特征包括文本长度、句子数量、平均句子长度、命名实体数量和情感得分；

9、文本长度包括病历文本的总字数和总词数；

10、平均句子长度定义为总词数与句子数量的比值；

11、命名实体数量的提取方法为：

12、使用ner技术对病历文本中的命名实体进行识别，并统计其数量；

13、情感得分包括正面情感得分、负面情感得分和中性情感得分；

14、其中，情感得分的提取方法为：

15、使用情感分析技术，对病历文本的情感倾向进行分析，得到相应的情感得分。

16、进一步地，所述词汇多样值和句法结构复杂度的计算方法包括：

17、使用jieba技术对病历文本进行分词，创建词汇列表；

18、对词汇列表去重，形成分类词汇集合，并统计词汇集合数量及总词汇数；

19、将词汇集合的数量与总词汇数量进行比值计算，得到词汇多样值；

20、使用spacy技术对病历文本进行分句和句法分析，提取从句和短语，并统计数量；

21、将从句和短语的总数量与句子数量进行比值计算，得到句法结构复杂度。

22、进一步地，所述构建异常检测模型的方式包括：

23、收集并转化历史病历文本为高维向量，并整合成文本数据集；

24、将文本数据集等分为s_u组训练数据，并以预设比例划分为训练集和测试集；

25、使用高斯混合模型构建异常检测模型，将训练集作为输入，输出得到复杂度异常系数；

26、设定模型的收敛容差与k值，使用期望最大化算法对模型参数进行迭代更新，在每次迭代后计算当前对数似然值与上一次迭代的对数似然值之差，若差值小于收敛容差，判定模型已经收敛，停止迭代。

27、进一步地，所述k值为高斯分布的数量；

28、其中，k值的设定方法为通过使用bic准则选择得到最优的高斯分布数量k；

29、所述对数似然值logp(x∣θ)的计算公式定义为：

30、

31、其中，x是训练集，包含n个病历文本的高维向量x，i是病历文本的索引，i＝1,2,...,n，θ是模型的参数集合，包括高斯分布的数量k、每个高斯分布的权重πj、均值μj和协方差矩阵σj，j是高斯分布的索引，j＝1,2,...,k，p(x∣θ)是xi在模型参数θ下的似然值，n(xi∣μj,σj)是多维高斯分布的概率密度函数；

32、概率密度函数

33、其中，|∑j|是协方差矩阵σj的行列式，(xi-μj)是高维向量xi与高斯分布均值μj之间的差值向量，(xi-μj)t是差值向量的转置，是协方差矩阵σj的逆矩阵。

34、进一步地，所述生成复杂度状态信号的方式包括：

35、将病历文本数据的高维向量输入异常检测模型，得到病历文本的复杂度异常系数；

36、设定异常系数阈值，若复杂度异常系数大于异常系数阈值，判定病历文本复杂度高，生成复杂度不合格信号；

37、反之，生成复杂度合格信号；

38、基于复杂度合格信号，设定参考阈值，选取复杂度异常系数低于参考阈值的病历文本作为参考文本，整合形成参考文本库。

39、进一步地，所述基于复杂度状态信号，对复杂度不合格的病历文本进行处理和纠错，并转换为简化文本的方式包括：

40、基于复杂度不合格信号和参考文本库，将复杂度不合格的文本定义为异常文本；

41、计算异常文本的高维向量与各参考文本高维向量间的余弦相似度；

42、余弦相似度

43、其中，ac为异常文本的高维向量，bc为参考文本的高维向量，ac×bc是高维向量ac和bc的点积，||ac||和||bc||分别为高维向量ac和bc的模；

44、选取余弦相似度最高的参考文本，作为与异常文本最相似的参考文本，并与异常文本进行对比分析，得到异常文本中的错误或复杂部分，生成简化文本。

45、进一步地，所述生成简化文本的方式包括：

46、使用bert模型的分词器将包含复杂度合格文本和复杂度不合格文本的历史病历文本数据进行分词，并转换为bert模型所需的输入格式；

47、按预设比例将转换后的历史病历文本数据划分为训练集和验证集，使用训练集对预训练的bert模型进行微调，使模型适应病历文本的生成和改写任务；

48、标注异常文本中的错误或复杂部分，使用标注后的异常文本作为输入数据，以最相似的参考文本作为模板，通过bert模型生成简化文本，并进行拼写及语法校验。

49、进一步地，所述进行拼写及语法校验的方式包括对简化文本进行拼写校验以及对简化文本进行语法校验；

50、所述对简化文本进行拼写校验的方式包括：

51、构建医学专业术语词汇表字典，对简化文本中的每个词汇进行字典匹配，若词汇未在本文档来自技高网...

【技术保护点】

1.一种基于多类型病历文本的结构化信息提取方法，其特征在于，包括：

2.根据权利要求1所述的一种基于多类型病历文本的结构化信息提取方法，其特征在于，所述进行预处理的方式为文本清洗和标准化；

3.根据权利要求2所述的一种基于多类型病历文本的结构化信息提取方法，其特征在于，所述词汇多样值的计算方法为：

4.根据权利要求1所述的一种基于多类型病历文本的结构化信息提取方法，其特征在于，所述构建异常检测模型的方式包括：

5.根据权利要求4所述的一种基于多类型病历文本的结构化信息提取方法，其特征在于，所述k值为高斯分布的数量；

6.根据权利要求1所述的一种基于多类型病历文本的结构化信息提取方法，其特征在于，所述生成复杂度状态信号的方式包括：

7.根据权利要求1所述的一种基于多类型病历文本的结构化信息提取方法，其特征在于，所述基于复杂度状态信号，对复杂度高的病历文本进行处理和纠错，并转换为简化文本的方式包括：

8.根据权利要求7所述的一种基于多类型病历文本的结构化信息提取方法，其特征在于，所述余弦相似度的计算方式为：

9.根据权利要求8所述的一种基于多类型病历文本的结构化信息提取方法，其特征在于，所述进行拼写及语法校验的方式包括对简化文本进行拼写校验以及对简化文本进行语法校验；

10.根据权利要求8所述的一种基于多类型病历文本的结构化信息提取方法，其特征在于，所述对简化文本进行语法校验的方式包括：

...

【技术特征摘要】

1.一种基于多类型病历文本的结构化信息提取方法，其特征在于，包括：

2.根据权利要求1所述的一种基于多类型病历文本的结构化信息提取方法，其特征在于，所述进行预处理的方式为文本清洗和标准化；

3.根据权利要求2所述的一种基于多类型病历文本的结构化信息提取方法，其特征在于，所述词汇多样值的计算方法为：

4.根据权利要求1所述的一种基于多类型病历文本的结构化信息提取方法，其特征在于，所述构建异常检测模型的方式包括：

5.根据权利要求4所述的一种基于多类型病历文本的结构化信息提取方法，其特征在于，所述k值为高斯分布的数量；

6.根据权利要求1所述的一种基于多类型病历文本的结构化信息提取方法，其特征...

【专利技术属性】
技术研发人员：孙谟健，刘洪燕，方蕾，刘语橦，石芳彬，
申请(专利权)人：山东联斯信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人