System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人工智能领域,具体涉及一种适用于医疗语境的中文拼写纠错方法。
技术介绍
1、随着我国人口增长和老龄化,就医人数大幅增加,导致医生更多时间用于接诊,无法专注于其他工作,如写病历、开处方等。繁重的工作压力使医生在工作中出现拼写错误的几率大大提高,从而引发信息传递偏差甚至事故。比如,药品名称拼写错误可能导致患者获得错误的药物;疾病名称的纰漏可能造成误诊;手术操作的记录失误也可能严重影响治疗效果。自动拼写纠错系统可以发现文字中的错字并提出修改建议,帮助医务人员减少拼写错误,提高医疗记录的准确性,节省医生时间,将更多精力用在治疗上。
2、一些研究人员尝试基于深度学习方法在医疗环境下进行拼写纠错。这种拼写纠错方法主要需要构建神经网络模型,这些神经网络模型通过大量的训练数据学习和理解语言的复杂模式,包括上下文关系、语法结构和语义含义等。通过编码器将输入的错误拼写文本编码为一个固定长度的向量,捕获文本中的重要信息,然后,解码器基于这个向量生成正确的拼写文本。训练过程中,神经网络模型通过比较生成的文本和真实的正确文本,不断调整内部参数,使得生成的文本更接近真实的正确文本。
3、这些神经网络模型依赖局部上下文信息来进行预测,因为这类神经网络模型的设计使其在处理长距离依赖问题时存在困难,模型可能无法充分理解前后文中带有丰富含义的短语或者句子,导致无法对语境相关的错误进行纠正。例如,病情描述中的甲状腺功能亢进症被错误写成了甲状腺功能减退症,虽然在病情描述中根据具体症状能推测出正确的疾病名称,但是由于模型无法充分理解
4、另一方面,对于相似汉字的拼写错误,例如,将窦性心律错误写成窦性心率,律与率具有相同发音,并且心率和心律都有各自实际的意义,现有的深度学习的神经网络模型在处理这种复杂的非线性关系时存在困难,导致在面对形态相似或读音相似的拼写错误时,模型可能无法做出正确的预测。
技术实现思路
1、为解决上述问题,本专利技术提供一种适用于医疗语境的中文拼写纠错方法。
2、该方法包括:
3、步骤一,将待纠错的句子以汉字为单位划分得到个汉字,第个汉字为,,将个汉字通过词表进行映射得到序列,在序列之前加上,在序列之后加上,得到待纠错的句子的汉字标号序列;
4、步骤二,将汉字标号序列输入到bert预训练中文语言模型中得到语境信息特征,将语境信息特征的维度转换为,得到置信度预测;
5、步骤三,定义置信度预测中对应汉字的置信度预测为汉字置信度预测,将汉字置信度预测中所有值从大到小排序后选取前个值作为待纠错的句子中第个位置处的候选汉字概率集合,将候选汉字概率集合进行归一化处理,其中待纠错的句子中第个位置处的第个候选汉字的归一化置信度为;
6、步骤四,基于编辑距离算法计算待纠错的句子中第个汉字与待纠错的句子中第个位置处的第个候选汉字之间的语音相似度;
7、步骤五,基于编辑距离算法计算待纠错的句子中第个汉字与待纠错的句子中第个位置处的第个候选汉字之间的视觉相似度;
8、步骤六,基于语音相似度与视觉相似度计算汉字与待纠错的句子中第个位置处的第个候选汉字之间的相似度,基于相似度与归一化置信度计算待纠错的句子中第个位置处的第个候选汉字的综合权重,根据综合权重计算待纠错的句子中第个位置处纠错后的汉字。
9、进一步的,步骤二中所述将汉字标号序列输入到bert预训练中文语言模型中得到语境信息特征,具体指将汉字标号序列输入到bert预训练中文语言模型中得到语境信息特征:
10、;
11、其中,代表通过bert预训练中文语言模型提取特征操作。
12、进一步的,步骤二中所述将语境信息特征的维度转换为,得到置信度预测,具体指将语境信息特征进行维度转换,得到置信度预测:
13、;
14、其中,代表线性变换操作,置信度预测的维度为。
15、进一步的,步骤三中归一化置信度的计算方法为:
16、;
17、其中,代表汉字置信度预测的向量按照数值从大到小排序后第个值。
18、进一步的,步骤四具体包括:用每个汉字的拼音和声调编码组成该汉字的拼音序列,定义待纠错的句子中第个汉字的拼音序列为,基于编辑距离算法计算待纠错的句子中第个汉字与待纠错的句子中第个位置处的第个候选汉字之间的语音相似度:
19、;
20、其中,代表待纠错的句子中第个位置处的第个候选汉字的词表索引,代表将词表索引转换为对应汉字的解码函数,代表待纠错的句子中第个位置处的第个候选汉字,代表待纠错的句子中第个位置处的第个候选汉字的拼音序列,代表编辑距离计算函数,代表绝对值运算,代表求最大值函数。
21、进一步的,步骤五具体包括:定义待纠错的句子中第个汉字的表意文字描述序列为,基于编辑距离算法计算待纠错的句子中第个汉字与待纠错的句子中第个位置处的第个候选汉字之间的视觉相似度:
22、;
23、其中,代表待纠错的句子中第个位置处的第个候选汉字的词表索引,代表将词表索引转换为对应汉字的解码函数,代表待纠错的句子中第个位置处的第个候选汉字,代表待纠错的句子中第个位置处的第个候选汉字的表意文字描述序列,代表编辑距离计算函数,代表绝对值运算,代表求最大值函数。
24、进一步的,表意文字描述序列,具体指:
25、将每个汉字以独体字为单位进行拆分得到内部构字部件,对于不能完全拆分为独体字的汉字,将拆分剩余的笔画与最接近的独体字结合作为一个内部构字部件;
26、按照汉字书写规则的先后顺序对每个内部构字部件继续拆分直到得到单独的笔画;
27、按照拆分的顺序,构建树状结构的汉字的表意文字描述树,表意文字描述树的根节点为描述第一次拆分得到的内部构字部件的相对位置的结构信息编码,叶子节点为单个笔画的笔画编码,中间节点为描述内部构字部件间或笔画间相对位置的结构信息编码;
28、汉字的表意文字描述序列即遍历表意文字描述树得到的序列。
29、进一步的,遍历表意文字描述树具体指:按照前序遍历顺序遍历表意文字描述树。
30、进一步的,步骤六具体包括,计算待纠错的句子中第个汉字与待纠错的句子中第个位置处的第个候选汉字之间的相似度:
31、;
32、其中,为调节语音相似度与视觉相似度的调节因子;
33、综合相似度与归一化置信度得到待纠错的句子中第个位置处的第个候选汉字的综合权重:
34、;
35、则待纠错的句子中第个位置处纠错后的汉字为:
36、;
37、其中,表示选出括号中最大值的函数,表示将综合权重转换为词表索引的函数,代表将词表索引转换为对应汉字的解码函数。
38、本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优本文档来自技高网...
【技术保护点】
1.一种适用于医疗语境的中文拼写纠错方法,其特征在于,包括以下步骤:
2.根据权利要求1所述一种适用于医疗语境的中文拼写纠错方法,其特征在于,步骤二中所述将汉字标号序列输入到BERT预训练中文语言模型中得到语境信息特征,具体指将汉字标号序列输入到BERT预训练中文语言模型中得到语境信息特征:
3.根据权利要求1所述一种适用于医疗语境的中文拼写纠错方法,其特征在于,步骤二中所述将语境信息特征的维度转换为,得到置信度预测,具体指将语境信息特征进行维度转换,得到置信度预测:
4.根据权利要求1所述一种适用于医疗语境的中文拼写纠错方法,其特征在于,步骤三中归一化置信度的计算方法为:
5.根据权利要求1所述一种适用于医疗语境的中文拼写纠错方法,其特征在于,步骤四具体包括:用每个汉字的拼音和声调编码组成该汉字的拼音序列,定义待纠错的句子中第个汉字的拼音序列为,基于编辑距离算法计算待纠错的句子中第个汉字与待纠错的句子中第个位置处的第个候选汉字之间的语音相似度:
6.根据权利要求1所述一种适用于医疗语境的中文拼写纠错方法,其特征在于,步
7.根据权利要求6所述一种适用于医疗语境的中文拼写纠错方法,其特征在于,表意文字描述序列,具体指:
8.根据权利要求7所述一种适用于医疗语境的中文拼写纠错方法,其特征在于,遍历表意文字描述树具体指:按照前序遍历顺序遍历表意文字描述树。
9.根据权利要求1所述一种适用于医疗语境的中文拼写纠错方法,其特征在于,步骤六具体包括,计算待纠错的句子中第个汉字与待纠错的句子中第个位置处的第个候选汉字之间的相似度:
...【技术特征摘要】
1.一种适用于医疗语境的中文拼写纠错方法,其特征在于,包括以下步骤:
2.根据权利要求1所述一种适用于医疗语境的中文拼写纠错方法,其特征在于,步骤二中所述将汉字标号序列输入到bert预训练中文语言模型中得到语境信息特征,具体指将汉字标号序列输入到bert预训练中文语言模型中得到语境信息特征:
3.根据权利要求1所述一种适用于医疗语境的中文拼写纠错方法,其特征在于,步骤二中所述将语境信息特征的维度转换为,得到置信度预测,具体指将语境信息特征进行维度转换,得到置信度预测:
4.根据权利要求1所述一种适用于医疗语境的中文拼写纠错方法,其特征在于,步骤三中归一化置信度的计算方法为:
5.根据权利要求1所述一种适用于医疗语境的中文拼写纠错方法,其特征在于,步骤四具体包括:用每个汉字的拼音和声调编码组成该汉字的拼音序列,定义待纠错的句子中第个汉字的拼音序...
【专利技术属性】
技术研发人员:高敏,陈恩红,刘昌春,蒋浚哲,张凯,王慕秋,李京秀,宋雪莉,丁蓓蓓,张梦云,
申请(专利权)人:安徽省立医院中国科学技术大学附属第一医院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。