基于对话表征的分诊方法、装置、设备及存储介质制造方法及图纸

技术编号:29590844 阅读:29 留言:0更新日期:2021-08-06 19:51
本发明专利技术涉及大数据领域,公开了一种基于对话表征的分诊方法、装置、设备及存储介质。本方法包括:获取待分诊对象在各轮对话中录入的问诊数据并对问诊数据进行数据清洗,得到目标问诊数据;对目标问诊数据进行意图识别,得到目标问诊数据中包含的句对;调用预置目标BERT网络模型对句对和主诉信息进行特征提取,得到句对向量和主诉向量;分别计算主诉向量和句对向量之间的欧氏距离,并基于欧氏距离确定多轮对话中每轮对话对应的对话表征向量;将每轮对话的对话表征向量输入预置分诊模型进行识别,得到分诊信息。本方案通过将主诉信息和多轮对话进行表征,解决了分诊准确率低的技术问题。本发明专利技术中的问诊数据可以存储于区块链中。

【技术实现步骤摘要】
基于对话表征的分诊方法、装置、设备及存储介质
本专利技术涉及大数据领域,尤其涉及一种基于对话表征的分诊方法、装置、设备及存储介质。
技术介绍
我国人口基数巨大,就医人数因此也位居世界前列,但受限于有限的医疗资源,目前国民就医流程中还存在较多问题,其中之一发生在就诊初期分诊时。分诊是根据病情将患者分至不同科室进行就诊,对于提升就诊效率有重要意义。分诊是患者就医治疗的起始环节,选择恰当的科室,直接关系到治疗效果或能否得到有效治疗。然而随着医学研究的深入,医学分工也逐步细化,不同科室专精于某类疾病的诊治。而患者大都不具备深厚的医学知识,很难识别自己的病况并根据自己的状况选择最恰当的科室。医院分诊台工作人员数量有限,而医院接诊量又巨大,导致分诊台工作人员工作负荷大。此外分诊台面对的是全科就诊环境,进一步增大了误分诊的可能性,会产生较多二次转诊情况,影响就医效率。因此,如何提高分诊准确率成为了本领域技术人员需要面临的技术问题。
技术实现思路
本专利技术的主要目的是提高基于对话表征进行分诊的准确率,解决基于对话表征的分诊精准率低下的技术问题。本专利技术第一方面提供了一种基于对话表征的分诊方法,包括:获取待分诊对象在就诊时产生的多轮对话,并提取多轮对话中的问诊数据;对所述问诊数据进行数据清洗,得到目标问诊数据,其中,所述目标问诊数据包括所述用户的主诉信息;对所述目标问诊数据进行意图识别,得到所述目标问诊数据中包含的句对,其中,所述目标问诊数据中包含至少一个句对;调用预置目标BERT网络模型对所述句对和所述主诉信息进行特征提取,得到所述句对的句对向量和所述主诉信息的主诉向量;计算所述主诉向量和所述句对向量之间的欧氏距离,并基于所述欧氏距离确定多轮对话中每轮对话对应的对话表征向量;将每轮对话的对话表征向量输入预置分诊模型进行识别,得到分诊信息。可选地,在本专利技术第一方面的第一种实现方式中,所述对所述目标问诊数据进行意图识别,得到所述目标问诊数据中包含的句对包括:根据预设表征规则获取所述目标问诊数据中的所有问答句和与所述问答句对应对象的对象标识;基于各所述对象标识,对所述目标问诊数据中的各问答句分别进行意图识别,得到对应所述问诊数据的意图标识序列;根据所述意图标识序列,确定对应所述问句的目标答句意图标识;基于所述目标答句意图标识,得到所述目标问诊数据中包含的句对。可选地,在本专利技术第一方面的第二种实现方式中,在所述调用预置目标BERT网络模型对所述句对和所述主诉信息进行特征提取,得到所述句对的句对向量和所述主诉信息的主诉向量之前,还包括:建立预训练任务,调用预置向量化模型将历史用户问诊数据处理为若干个词向量,其中,所述词向量包括基于所述历史用户问诊数据词向量;将所述若干个词向量输入初始BERT网络模型,获取所述初始BERT网络模型输出的训练表征向量;根据所述训练表征向量计算所述初始BERT网络模型的损失值;根据所述初始BERT网络模型的损失值,调整所述初始BERT网络模型的模型参数,得到目标BERT网络模型。可选地,在本专利技术第一方面的第三种实现方式中,所述计算所述主诉向量和所述句对向量之间的欧氏距离,并基于所述欧氏距离确定多轮对话中每轮对话对应的对话表征向量包括:计算所述主诉向量和每轮对话中每个句对向量两两之间的欧氏距离;基于所述欧氏距离,确定每个所述句对在对应的一轮对话中的权重;基于所述权重,对每个所述句对向量对应的权重进行加权平均,多轮对话中每轮对话对应的对话表征向量。可选地,在本专利技术第一方面的第四种实现方式中,所述将每轮对话的对话表征向量输入预置分诊模型进行识别,得到分诊信息包括:基于所述各轮对话对应的对话表征向量,确定所述目标问诊数据中的目标病症信息;对所述目标病症信息和所述各轮对话对应的主诉信息进行编码,得到所述目标问诊数据的病症实体向量;将所述病症实体向量输入预置分诊模型进行预测,得到不同科室的分诊概率;对所述分诊概率进行排序,得到分诊信息,其中,所述分诊信息包括预设数量个排序最高的推荐科室和所述推荐科室对应的分诊概率。可选地,在本专利技术第一方面的第五种实现方式中,在所述将每轮对话的对话表征向量输入预置分诊模型进行识别,得到分诊信息之前,还包括:从预置数据库中获取历史问诊数据;通过所述目标BERT网络模型对所述历史问诊数据进行表征学习,获取所述历史问诊数据的第二对话表征向量;获取预设训练病症和与所述训练病症对应的科室标签,基于所述训练病症对预置节点集关联向量进行筛选,获取与所述训练症状对应的目标向量;对所述第二对话表征向量和所述目标向量进行映射操作,获取对话嵌入向量和目标嵌入向量;基于所述训练症状对所述对话嵌入向量和所述目标嵌入向量进行拼接,获取拼接向量;在卷积层对所述拼接向量进行卷积操作,获取卷积关联向量,将所述卷积关联向量输入输出层,获取预测输出结果;基于所述预测输出结果与所述科室标签,计算预测误差损失,并根据所述预测误差损失更新所述目标BERT网络模型的参数,直到所述目标BERT网络模型收敛,获取基于对话表征的分诊模型。可选地,在本专利技术第一方面的第六种实现方式中,所述对所述问诊数据进行数据清洗,得到目标问诊数据包括:获取所述问诊数据的清洗需求;根据所述问诊数据和所述清洗需求,确定用于对所述问诊数据进行数据清洗的目标清洗规则;根据所述目标清洗规则对所述问诊数据进行数据清洗,得到目标问诊数据。本专利技术第二方面提供了一种基于对话表征的分诊装置,包括:获取待分诊对象在就诊时产生的多轮对话,并提取多轮对话中的问诊数据;数据清洗模块,用于对所述问诊数据进行数据清洗,得到目标问诊数据,其中,所述目标问诊数据包括所述用户的主诉信息;意图识别模块,用于对所述目标问诊数据进行意图识别,得到所述目标问诊数据中包含的句对,其中,所述目标问诊数据中包含至少一个句对;特征提取模块,用于调用预置目标BERT网络模型对所述句对和所述主诉信息进行特征提取,得到所述句对的句对向量和所述主诉信息的主诉向量;第一计算模块,用于计算所述主诉向量和所述句对向量之间的欧氏距离,并基于所述欧氏距离确定多轮对话中每轮对话对应的对话表征向量;识别模块,用于将每轮对话的对话表征向量输入预置分诊模型进行识别,得到分诊信息。可选地,在本专利技术第二方面的第一种实现方式中,所述意图识别模块包括:获取单元,用于根据预设表征规则获取所述目标问诊数据中的所有问答句和与所述问答句对应对象的对象标识;意图识别单元,用于基于各所述对象标识,对所述目标问诊数据中的各问答句分别进行意图识别,得到对应所述问诊数据的意图标识序列;第一确定单元,用于根据所述意图标识序列,确定对应所述问句的目标答句意图标识;基于所述目标答句意图标识,得到所述目标问诊数据中包含的句对。可选地,在本专利技术第二方面的第二种实现方式中,所述基于对话表征的分诊装置还包括:向量化模块,用于建立预训练任务,调用预置向量化模型将历史用户问诊数据处理为若干个词向量,其中,所述词向量包括基于所述历史用户问诊数据词向量;第一获取模块,用于将所述若干个词向量输入初始BERT网络模型,本文档来自技高网...

【技术保护点】
1.一种基于对话表征的分诊方法,其特征在于,所述基于对话表征的分诊方法包括:/n获取待分诊对象在就诊时产生的多轮对话,并提取多轮对话中的问诊数据;/n对所述问诊数据进行数据清洗,得到目标问诊数据,其中,所述目标问诊数据包括所述用户的主诉信息;/n对所述目标问诊数据进行意图识别,得到所述目标问诊数据中包含的句对,其中,所述目标问诊数据中包含至少一个句对;/n调用预置目标BERT网络模型对所述句对和所述主诉信息进行特征提取,得到所述句对的句对向量和所述主诉信息的主诉向量;/n计算所述主诉向量和所述句对向量之间的欧氏距离,并基于所述欧氏距离确定多轮对话中每轮对话对应的对话表征向量;/n将每轮对话的对话表征向量输入预置分诊模型进行识别,得到分诊信息。/n

【技术特征摘要】
1.一种基于对话表征的分诊方法,其特征在于,所述基于对话表征的分诊方法包括:
获取待分诊对象在就诊时产生的多轮对话,并提取多轮对话中的问诊数据;
对所述问诊数据进行数据清洗,得到目标问诊数据,其中,所述目标问诊数据包括所述用户的主诉信息;
对所述目标问诊数据进行意图识别,得到所述目标问诊数据中包含的句对,其中,所述目标问诊数据中包含至少一个句对;
调用预置目标BERT网络模型对所述句对和所述主诉信息进行特征提取,得到所述句对的句对向量和所述主诉信息的主诉向量;
计算所述主诉向量和所述句对向量之间的欧氏距离,并基于所述欧氏距离确定多轮对话中每轮对话对应的对话表征向量;
将每轮对话的对话表征向量输入预置分诊模型进行识别,得到分诊信息。


2.根据权利要求1所述的基于对话表征的分诊方法,其特征在于,所述对所述目标问诊数据进行意图识别,得到所述目标问诊数据中包含的句对包括:
根据预设表征规则获取所述目标问诊数据中的所有问答句和与所述问答句对应对象的对象标识;
基于各所述对象标识,对所述目标问诊数据中的各问答句分别进行意图识别,得到对应所述问诊数据的意图标识序列;
根据所述意图标识序列,确定对应所述问句的目标答句意图标识;
基于所述目标答句意图标识,得到所述目标问诊数据中包含的句对。


3.根据权利要求1所述的基于对话表征的分诊方法,其特征在于,在所述调用预置目标BERT网络模型对所述句对和所述主诉信息进行特征提取,得到所述句对的句对向量和所述主诉信息的主诉向量之前,还包括:
建立预训练任务,调用预置向量化模型将历史用户问诊数据处理为若干个词向量,其中,所述词向量包括基于所述历史用户问诊数据词向量;
将所述若干个词向量输入初始BERT网络模型,获取所述初始BERT网络模型输出的训练表征向量;
根据所述训练表征向量计算所述初始BERT网络模型的损失值;
根据所述初始BERT网络模型的损失值,调整所述初始BERT网络模型的模型参数,得到目标BERT网络模型。


4.根据权利要求1-2中任一项所述的基于对话表征的分诊方法,其特征在于,所述计算所述主诉向量和所述句对向量之间的欧氏距离,并基于所述欧氏距离确定多轮对话中每轮对话对应的对话表征向量包括:
计算所述主诉向量和每轮对话中每个句对向量两两之间的欧氏距离;
基于所述欧氏距离,确定每个所述句对在对应的一轮对话中的权重;
基于所述权重,对每个所述句对向量对应的权重进行加权平均,得到多轮对话中每轮对话对应的对话表征向量。


5.根据权利要求1所述的基于对话表征的分诊方法,其特征在于,所述将每轮对话的对话表征向量输入预置分诊模型进行识别,得到分诊信息包括:
基于所述各轮对话对应的对话表征向量,确定所述目标问诊数据中的目标病症信息;
对所述目标病症信息和所述各轮对话对应的主诉信息进行编码,得到所述目标问诊数据的病症实体向量;
将所述病症实体向量输入预置分诊模型进行预测,得到不同科室的分诊概率;
对所述分诊概率进行排序...

【专利技术属性】
技术研发人员:孙行智胡岗朱昭苇刘卓唐蕊姚海申
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1