【技术实现步骤摘要】
短文本标准化方法、装置、设备及存储介质
[0001]本申请实施例涉及机器学习
,特别涉及一种短文本标准化方法、装置、设备及存储介质。
技术介绍
[0002]临床上,关于同一种诊断、手术、药品、检查、化验、症状等,由于医生个人书写习惯和术语表达多样性等因素,往往导致有多种多样的写法。医学诊断标准化作为医疗信息化过程中非常重要的环节,其目标是将输入的不规范原始文本映射到医学标准体系中规范的标准文本。
[0003]相关技术提供了一种深度模型,可以基于标注数据利用机器学习或者深度学习的方法,学习标准文本和原始文本中深层次的语义表达,通过反向传播训练得到标准文本和原始文本的语义特征向量,然后基于标准文本的语义特征向量和原始文本的语义特征向量之间的余弦相似度,衡量原始文本和标准文本的相似度。
[0004]然而原始文本和标准文本通常是短文本,缺乏有效的上下文信息,深度模型难以充分理解原始文本和标准文本的语义,使得标准化不准确。
技术实现思路
[0005]本申请实施例提供了一种短文本标准化方法、装置、设备及存储介质。本申请实施例提供的技术方案如下。
[0006]根据本申请实施例的一个方面,提供了一种短文本标准化方法,所述方法包括:
[0007]对原始文本进行特征提取,得到第一字符特征向量、第一语义特征向量和第一发音特征向量,所述第一字符特征向量用于表征所述原始文本的字符特征,所述第一语义特征向量用于表征所述原始文本的语义特征,所述第一发音特征向量用于表征所述原始文本的发音特征;< ...
【技术保护点】
【技术特征摘要】
1.一种短文本标准化方法,其特征在于,所述方法包括:对原始文本进行特征提取,得到第一字符特征向量、第一语义特征向量和第一发音特征向量,所述第一字符特征向量用于表征所述原始文本的字符特征,所述第一语义特征向量用于表征所述原始文本的语义特征,所述第一发音特征向量用于表征所述原始文本的发音特征;对所述第一字符特征向量、所述第一语义特征向量和所述第一发音特征向量进行融合,得到第一融合特征向量;计算所述第一融合特征向量和各个标准文本对应的第二融合特征向量之间的相似度;其中,所述第二融合特征向量是对所述标准文本进行特征提取和融合得到的;根据所述相似度,从各个所述标准文本中确定所述原始文本对应的标准文本。2.根据权利要求1所述的方法,其特征在于,所述对原始文本进行特征提取,得到第一字符特征向量,包括:根据所述原始文本得到至少两个短语,每个短语包含至少两个字符,且相邻两个短语之间存在至少一个重叠的字符;确定所述至少两个短语中的每个短语在词表中的位置,以及确定所述至少两个短语中的每个短语在所述原始文本中的出现次数,所述词表中包含至少两个候选的短语;根据每个短语在词表中的位置以及每个短语在所述原始文本中的出现次数,得到所述第一字符特征向量。3.根据权利要求1所述的方法,其特征在于,所述对原始文本进行特征提取,得到第一语义特征向量,包括:获取所述原始文本对应的字符序列,所述字符序列中包括对所述原始文本进行划分得到的按序排列的至少两个字符;提取所述字符序列中的每个字符的上下文信息,得到所述第一语义特征向量。4.根据权利要求1所述的方法,其特征在于,所述对原始文本进行特征提取,得到第一发音特征向量,包括:获取所述原始文本中每个字符对应的音素;根据所述原始文本中每个字符对应的音素得到至少两个音素短语,每个音素短语包含至少两个字符对应的音素,且相邻两个音素短语之间存在至少一个重叠的字符对应的音素;确定所述至少两个音素短语中的每个音素短语在音素词表中的位置,以及确定所述至少两个音素短语中的每个音素短语在所述原始文本中的出现次数,所述音素词表中包含至少两个候选的音素短语;根据每个音素短语在音素词表中的位置以及每个音素短语在所述原始文本中的出现次数,得到所述第一发音特征向量。5.根据权利要求1所述的方法,其特征在于,所述计算所述第一融合特征向量和各个标准文本对应的第二融合特征向量之间的相似度之前,所述方法还包括:根据所述原始文本与标准文本列表中的标准文本的字面匹配程度,对所述标准文本列表中的标准文本进行筛选,得到召回标准文本列表,所述召回标准文本列表中包含从所述标准文本列表中选取的部分标准文本;
所述计算所述第一融合特征向量和各个标准文本对应的第二融合特征向量之间的相似度,包括:计算所述第一融合特征向量和所述召回标准文本列表中的各个标准文本对应的第二融合特征向量之间的相似度。6.根据权利要求1至5任一项所述的方法,其特征在于,所述原始文本采用第一特征提取模型进行特征提取,所述标准文本采用第二特征提取模型进行特征提取,所述第一特征提取模型与所述第二特征提取模型是两个不同的特征提取模型。7.根据权利要求6所述的方法,其特征在于,所述第一特征提取模型与所述第二特征提取模型的结构相同,且参数不同。8.一种短文本标准化方法,其特征在于,所述方法包括:获取至少两个样本对,每个样本对中包含一个原始文本样本和一个标准文本样本;通过第一特征提取模型,对所述原始文本样本进行特征提取,得到第一字符特征向量、第一语义特征向量和第一发音特征向量;以及,对所述第一字符特征向量、所述第一语义特征向量和所述第一发音特征向量进行融合,得到第一融合特征向量;其中,所述第一字符特征向量用于表征所述原始文本样本的字符特征,所述第一语义特征向量用于表征所述原始文本样本的语义特征,所述第一发音特征向量用于表征所述原始文本样本的发音特征;通过第二特征提取模型,对所述标准文本样本进行特征提取,得到第二字符特征向量、第二语义特征向量和第二发音特征向量;以及,对所述第二字符特征向量、所述第二语义特征向量和所述第二发音特征向量进行融合,得到第二融合特征向量;其中,所述第二字符特征向量用于表征所述标准文本样本的字符特征,所述第二语义特征向量用于表征所述标准文本样本的语义特征,所述第二发音特征向量用于表征所述标准文本样本的发音特征;所述第一特征提取模型与所述第二特征提取模型是两个不同的特征提取模型;对比学习所述第一融合特征向量与所述第二融合特征向量,得到模型训练损失;根据所述模型训练损失,调整所述第一特征提取模型和所述第二特征提取模型的参数;其中,完成训练的第一特征提取模型用于...
【专利技术属性】
技术研发人员:林镇溪,张子恒,吴贤,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。