医学词义识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:24708764 阅读:19 留言:0更新日期:2020-07-01 00:04
本申请属于数据处理领域,公开了一种医学词义识别方法、装置、计算机设备及可读存储介质。所述方法包括获取待分析语句,并根据待分析语句从预设的医学词表单中查找出与待分析语句具有相关性的医学词;将待分析语句和医学词导入Bilstm模型中,得到原始语句向量和医学词向量;分别对原始语句向量和医学词向量进行池化分析,得到原始前馈向量和医学前馈向量;将所述原始前馈向量和医学前馈向量导入余弦相似度算法中,得到所述原始前馈向量与所述医学前馈向量之间的余弦值,并将最大所述余弦值对应的所述医学词作为医学词义识别结果。采用本方法解决了不能从成千上万的标准概念中命中正确概念,并准确定位相关的医学词的技术问题。

【技术实现步骤摘要】
医学词义识别方法、装置、计算机设备和存储介质
本申请涉及数据处理领域,特别是涉及一种医学词义识别方法、装置、计算机设备和存储介质。
技术介绍
随着信息技术的发展,近来深度学习模型在语义相似度的通用领域有较大进展,如机器人识别语义,但是在中文医学临床数据的语义相似度上并未有突出成果;目前对于医学的临床语义识别采用的是孪生网络模型,传统的孪生网络模型将一待分析语句和根据该待分析语句初步确定的一医学词同时映射到分析空间中,使得待分析语句和对应的医学词在空间中的表示,通过拼写差异的计算两者的相似度,实现医学的临床语义识别;但是,目前的孪生神经网络模型对待分析语句进行无差别编码信息,没有对重要的医学知识进行整合。因此,传统的孪生模型并不能特异性的理解临床医学概念和相互之间的关系,也就不能从成千上万的标准概念中命中正确概念;在大数据广泛使用的社会大环境下,根据对患者/医生所输入的语句进行分析,以准确定位相关的医学词,实现医联共体是目前亟待解决的问题。
技术实现思路
基于此,有必要针对上述技术问题,本申请提供一种医学词义识别方法、装置、计算机设备及存储介质,以解决现有技术中不能从成千上万的标准概念中命中正确概念,以准确定位相关的医学词的技术问题。一种医学词义识别方法,所述方法包括:获取待分析语句,并根据所述待分析语句从预设的医学词表单中查找出与所述待分析语句具有相关性的医学词,其中,所述医学词的数量至少为一项;将所述待分析语句和所述医学词导入Bilstm模型中,得到原始语句向量和医学词向量;分别对所述原始语句向量和所述医学词向量进行池化分析,得到原始前馈向量和医学前馈向量;将所述原始前馈向量和医学前馈向量导入余弦相似度算法中,得到所述原始前馈向量与所述医学前馈向量之间的余弦值,并将最大所述余弦值对应的所述医学词作为医学词义识别结果。一种医学词义识别装置,所述装置包括:语句匹配模块,用于获取待分析语句,并根据所述待分析语句从预设的医学词表单中查找出与所述待分析语句具有相关性的医学词,其中,所述医学词的数量至少为一项;编码处理模块,用于将所述待分析语句和所述医学词导入Bilstm模型中,得到原始语句向量和医学词向量;池化分析模块,用于分别对所述原始语句向量和所述医学词向量进行池化分析,得到原始前馈向量和医学前馈向量;结果识别模块,用于将所述原始前馈向量和医学前馈向量导入余弦相似度算法中,得到所述原始前馈向量与所述医学前馈向量之间的余弦值,并将最大所述余弦值对应的所述医学词作为医学词义识别结果。一种计算机设备,包括存储器和处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述医学词义识别方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述医学词义识别方法的步骤。上述医学词义识别方法、装置、计算机设备和存储介质,通过获取输入的待分析语句,并从预设的医学词表单中查找出与待分析语句相关的医学词;随后,将待分析语句和医学词导入至Bilstm模型中,获得原始语句向量和医学词向量,并分别对原始短语向量和医学词向量进行池化分析,保留原始短语向量和医学词向量更深层次的语义信息,得到原始前馈向量和医学前馈向量,提高了语义分析的准确度;最终通过将原始前馈向量和医学前馈向量导入至余弦相似度算法中,计算出的医学前馈向量的余弦值作为原始前馈向量的相似度,这种通过反复的进行余弦值的计算,从若干个医学前馈向量中确定出与原始前馈向量相似度最高的一医学词,从而实现根据对患者/医生所输入的语句进行分析,从千万数量中的医学概念中确定与该语句最接近的医学词,实现大数据环境下医联共体的技术共享,在偏僻地区同样能够进行最精准的医学诊断。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为医学词义识别方法的应用环境示意图;图2为医学词义识别方法的流程示意图;图3为医学词义识别方法的另一实施例的流程示意图;图4为图2中步骤202的流程示意图;图5为图2中步骤204的流程示意图;图6为图2中步骤206的流程示意图;图7为实施例6中特征提取的示意图;图8为实施例6中语义拼接的示意图;图9为医学词义识别装置的示意图;图10为一个实施例中计算机设备的示意图。具体实施方式除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供的医学词义识别方法,可以应用于如图1所示的应用环境中。其中,该应用环境可以包括终端102、网络以及服务端104,网络用于在终端102和服务端104之间提供通信链路介质,网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端102通过网络与服务端104交互,以接收或发送消息等。终端102上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。终端102可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。服务端104可以是提供各种服务的服务器,例如对终端102上显示的页面本文档来自技高网
...

【技术保护点】
1.一种医学词义识别方法,其特征在于,所述方法包括:/n获取待分析语句,并根据所述待分析语句从预设的医学词表单中查找出与所述待分析语句具有相关性的医学词,其中,所述医学词的数量至少为一项;/n将所述待分析语句和所述医学词导入Bilstm模型中,得到原始语句向量和医学词向量;/n分别对所述原始语句向量和所述医学词向量进行池化分析,得到原始前馈向量和医学前馈向量;/n将所述原始前馈向量和医学前馈向量导入余弦相似度算法中,得到所述原始前馈向量与所述医学前馈向量之间的余弦值,并将最大所述余弦值对应的所述医学词作为医学词义识别结果。/n

【技术特征摘要】
1.一种医学词义识别方法,其特征在于,所述方法包括:
获取待分析语句,并根据所述待分析语句从预设的医学词表单中查找出与所述待分析语句具有相关性的医学词,其中,所述医学词的数量至少为一项;
将所述待分析语句和所述医学词导入Bilstm模型中,得到原始语句向量和医学词向量;
分别对所述原始语句向量和所述医学词向量进行池化分析,得到原始前馈向量和医学前馈向量;
将所述原始前馈向量和医学前馈向量导入余弦相似度算法中,得到所述原始前馈向量与所述医学前馈向量之间的余弦值,并将最大所述余弦值对应的所述医学词作为医学词义识别结果。


2.根据权利要求1所述的方法,其特征在于,在所述根据所述待分析语句从预设的医学词表单中查找出与所述待分析语句具有相关性的医学词之前,还包括:
从病例数据库中获取第一训练样本B1,从所述医学词表单中获取第二训练样本B2;
建立所述第一训练样本B1与至少一个第二训练样本B2之间的相似度标签,其中,所述第二训练样本B2为与所述第一训练样本B1的文字具有相关性的医学词;
将所述相似度标签输入到医学词表单中。


3.根据权利要求2所述的方法,其特征在于,所述根据所述待分析语句从预设的医学词表单中查找出与所述待分析语句具有相关性的医学词,包括:
识别所述待分析语句中的分析文字;
确定所述分析文字在所述医学词表单中对应的相似度标签;
根据所述相似度标签得到与所述待分析语句的文字具有相关性的医学词。


4.根据权利要求1所述的方法,其特征在于,所述将所述待分析语句和所述医学词导入Bilstm模型中,得到原始语句向量和医学词向量,包括:
根据人体部位词汇表以及不适症状词汇表确认所述待分析语句中的冗余文字;
通过所述Bilstm模型将所述冗余文字从所述待分析语句中过滤,并对冗余文字过滤后的待分析语句进行向量化处理,得到所述原始语句向量。


5.根据权利要求1所述的方法,其特征在于,所述分别对所述原始语句向量和所述医学词向量进行池化分析,得到原始前馈向量和医学前馈向量,包括:
分别对所述原始语句向量和所述...

【专利技术属性】
技术研发人员:施维郭建福张旭
申请(专利权)人:平安医疗健康管理股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1