一种在线医疗问答方法技术

技术编号:31239215 阅读:56 留言:0更新日期:2021-12-08 10:26
本发明专利技术属于互联网医疗技术领域,涉及一种在线医疗问答方法。患者问题接收后进行长短句压缩处理,得到改写后的问句,分词处理,分割成单词集合,训练神经语言模型,将单词集合进行向量化处理,并进一步将问句进行向量化,抽取实体词,将实体词转为标准词,根据特征词库识别出患者意图类型;生成问句解析结果,构建知识图谱;转换成查询语句,通过知识图谱查询获得答案。本发明专利技术可以有效解决患者对自身病情表述不专业,医疗系统无法识别的痛点,通过精准识别患者问询意图,针对患者病症,采用自构建的知识图谱给出患者推荐药品、视频及治疗等。视频及治疗等。视频及治疗等。

【技术实现步骤摘要】
一种在线医疗问答方法


[0001]本专利技术属于互联网医疗
,涉及一种在线医疗问答方法。

技术介绍

[0002]随着互联网的飞速发展,医疗健康领域的需求也得到了快速的完善,尤其是近年来人工智能技术在医疗领域的应用,给人们带来了极大的帮助。医疗问答系统作为医疗健康领域的重要应用之一,已经渗透进了人们的日常生活,是帮助人们了解医疗知识的重要途径,该应用具体实现方式是患者咨询病情相关问题,问答系统通过一定的技术向患者提供相应答案。然而,由于患者本身存在医疗知识不足的问题,无法精确描述自己的病情信息,并且在咨询时存在口语化、描述混乱等问题,导致目前业界落地的问答系统不能给予合适的答案。
[0003]现有的医疗问答技术方案基本分为以下三种:一是通过信息抽取技术。该方法主要是通过关键词的匹配加之一些规则来实现答案的抽取,然后再通过相似度的计算进行排序。
[0004]二是通过知识图谱技术。该方法主要是通过医疗领域知识的实体来构建实体关系边进而形成垂直领域的知识图谱,其核心理论是通过知识推理来实现从问题到答案的查找。
[0005]三是通过深度学习技术。近年来深度学习技术随着计算机硬件水平的提高也得到了快速的发展,在计算机视觉、自然语言处理等领域都取得了很好的成绩。在医疗问答系统的研究中,利用深度学习技术可以对医疗数据进行训练,进而学习构建复杂的网络模型来解决问答过程中的一些关键问题,比如医疗专业术语的命名实体识别、医疗主诉文本的分类等。

技术实现思路

[0006]本专利技术针对传统面对缺乏专业知识的患者不能精确描述问题时,医疗问答系统无法给予合适的答案的问题提出一种新型的在线的医疗问答方法及系统,可实时的为患者提供精准的医疗问答服务。
[0007]为了达到上述目的,本专利技术是采用下述的技术方案实现的:一种在线医疗问答方法,步骤如下,(1)患者问题接收后进行长短句压缩处理,得到改写后的问句;(2)将改写后的问句进行分词处理,分割成单词集合;(3)预先训练神经语言模型,将单词集合进行向量化处理,并进一步将问句进行向量化;(4)抽取出与疾病症状相关的实体词;(5)将抽取的实体词转为对应的标准词;(6)根据特征词库识别出患者意图类型;
(7)根据标准词和患者意图类型生成问句解析结果;(8)根据医疗疾病知识库构建知识图谱;(9)将问句解析结果转换成查询语句,通过知识图谱查询获得答案。
[0008]作为优选,所述步骤(1)中患者问题接收后通过标点分割成若干短句,对短句进一步分类成与医疗相关的句子以及与医疗无关的口水话语句;对短句进一步分类采用TextCNN神经网络模型,TextCNN神经网络模型的构建如下:S1输入层,从医疗网站在线采集医疗问答数据,作为数据集;将与医疗相关的问句打标签为1,与医疗无关的口水话语句打标签为0,并按照7:3的比例将数据集分为训练集和测试集,将训练集数据转化为embedding词向量后作为TextCNN神经网络模型训练的输入;S2卷积层,通过卷积操作提取输入层embedding词向量的特征,每个卷积核输出一个一维特征向量;S3池化层,对卷积层输出的一维特征向量做池化操作,做抽象的特征提取;取每个一维特征向量的最大值,然后将所有特征向量的最大值进行拼接,输出拼接后的一维特征向量;S4输出层,将问句对应每个类别的概率映射到(0,1)之间,从而根据最大概率确定问句所属的类别;TextCNN神经网络模型参数包括训练次数和学习率,所述模型训练次数为将整个训练集进行输入后的迭代计算次数;所述学习率为在模型进行参数更新时所采用的梯度下降算法中计算系数;TextCNN神经网络模型构建完成后,将步骤(2)改写后的问句输入到构建的TextCNN神经网络模型,获得短句所属的类别,去除类别为0的短句,保留与医疗相关的问句;所述步骤(2)利用不同符号对患者病情主诉信息进行粗分词,然后利用中文分词工具jieba结合自定义疾病症状词库进行细分词,得到病情主诉单词集合;所述不同符号包括:逗号、冒号、分号、&、百分号、等号和空格中的任意一种或几种;所述自定义疾病症状词库,为从医疗网站获取的疾病症状词进行构建的词库;所述分词工具jieba与疾病症状词库结合方式为,分词工具jieba提供行业领域词库接口,将自定义的疾病症状词库添加,保证患者病情主诉信息中专业的疾病、症状术语不会被错误分开;所述步骤(3)具体操作为:以word2vec算法来训练语言模型,输入为改写后的问句,输出为词表大小的向量,向量每一维度的值是基于当前输入词预测下一个词输入的概率;获取的医疗网站上患者的问答数据作为模型的训练数据集;设置模型的参数,包括训练次数、词向量的维度;得到每个词的词向量之后,生成句子向量的表示,根据步骤(2)得到单词集合,设单词数目记为n,得到每个词语的词向量表示,设定义词向量分别为[v1,v2,v3,

,vn],设句向量为s,则可得到句向量表示为;;其中v
n
代表向量的每一维的数值,
所述步骤(4)采用深度学习算法或基于词典的规则匹配算法、基于模板的匹配算法中的任意一种;所述步骤(5)从医疗网站的知识库爬取专业的疾病症状表述词和相应的同义词,将相同的词进行去重,含义相同但表述不同的词采用Python的中文近义词工具包Synonyms来进行同义合并,形成疾病症状知识库;将步骤(4)抽取的实体词作为标准表述词的进行保留,其余非标准词采用相似度计算方法与知识库中的标准词进行计算,获取相似度最高的标准词表述词;所述步骤(6)根据医疗垂直领域的相关知识,采用穷举法定义不同咨询疑问类型的特征词库,采用字符串匹配算法对患者问句进行匹配,获取患者意图类型;所述步骤(8)包括数据收集阶段、定义实体关系以及知识图谱构建,所述数据收集阶段通过医疗网站、百度百科、权威医疗机构、研究单位公开的的病历评测数据以及医疗书籍数据源进行收集;所述知识图谱构建以实体作为图谱的节点,以实体关系作为图谱中实体连接边,采用neo4j图数据库来进行图谱存储知识图谱;所述步骤(9)将步骤(7)获得的患者问句解析结果转换为neo4j图数据库的查询语言,使用cypher的match语句在neo4j存储的图谱中匹配查找,根据查询返回的数据组装形成答案返回给患者。
[0009]作为优选,所述卷积层的卷积核维度为2*2、3*3、4*4三种不同维度大小的卷积核,每种维度卷积核数量为128个;所述输出层采用softmax、sigmoid、svm中的任意一种分类算法作为进行分类器;softmax计算公式为 ,其中p
i
为每个科室类别的预测概率值,e
j
为softmax层输出向量的每一维度的值。
[0010]作为优选,所述步骤(4)中深度学习算法为序列标注模型BiLSTM

CRF,所述模型的输入为句向量表示的患者咨询问句,输出为句子的标注结果;模型的第一层输入层以咨询问句的向量表示,模型的第二层采用双向的LSTM神经网络提取问句的时序特征,数据量过大或出现效率过慢问本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种在线医疗问答方法,其特征在于:步骤如下,(1)患者问题接收后进行长短句压缩处理,得到改写后的问句;(2)将改写后的问句进行分词处理,分割成单词集合;(3)预先训练神经语言模型,将单词集合进行向量化处理,并进一步将问句进行向量化;(4)抽取出与疾病症状相关的实体词;(5)将抽取的实体词转为对应的标准词;(6)根据特征词库识别出患者意图类型;(7)根据标准词和患者意图类型生成问句解析结果;(8)根据医疗疾病知识库构建知识图谱;(9)将问句解析结果转换成查询语句,通过知识图谱查询获得答案。2.根据权利要求1所述在线医疗问答方法,其特征在于:所述步骤(1)中患者问题接收后通过标点分割成若干短句,对短句进一步分类成与医疗相关的句子以及与医疗无关的口水话语句;对短句进一步分类采用TextCNN神经网络模型,TextCNN神经网络模型的构建如下:S1输入层,从医疗网站在线采集医疗问答数据,作为数据集;将与医疗相关的问句打标签为1,与医疗无关的口水话语句打标签为0,并按照7:3的比例将数据集分为训练集和测试集,将训练集数据转化为embedding词向量后作为TextCNN神经网络模型训练的输入;S2卷积层,通过卷积操作提取输入层embedding词向量的特征,每个卷积核输出一个一维特征向量;S3池化层,对卷积层输出的一维特征向量做池化操作,做抽象的特征提取;取每个一维特征向量的最大值,然后将所有特征向量的最大值进行拼接,输出拼接后的一维特征向量;S4输出层,将问句对应每个类别的概率映射到(0,1)之间,从而根据最大概率确定问句所属的类别;TextCNN神经网络模型参数包括训练次数和学习率,所述模型训练次数为将整个训练集进行输入后的迭代计算次数;所述学习率为在模型进行参数更新时所采用的梯度下降算法中计算系数;TextCNN神经网络模型构建完成后,将步骤(2)改写后的问句输入到构建的TextCNN神经网络模型,获得短句所属的类别,去除类别为0的短句,保留与医疗相关的问句;所述步骤(2)利用不同符号对患者病情主诉信息进行粗分词,然后利用中文分词工具jieba结合自定义疾病症状词库进行细分词,得到病情主诉单词集合;所述不同符号包括:逗号、冒号、分号、&、百分号、等号和空格中的任意一种或几种;所述自定义疾病症状词库,为从医疗网站获取的疾病症状词进行构建的词库;所述分词工具jieba与疾病症状词库结合方式为,分词工具jieba提供行业领域词库接口,将自定义的疾病症状词库添加,保证患者病情主诉信息中专业的疾病、症状术语不会被错误分开;所述步骤(3)具体操作为:以word2vec算法来训练语言模型,输入为改写后的问句,输出为词表大小的向量,向量每一维度的值是基于当前输入词预测下一个词输入的概率;获取的医疗网站上患者的问答数据作为模型的训练数据集;设置模型的参数,包括训练次...

【专利技术属性】
技术研发人员:王成伟高中霞艾延永
申请(专利权)人:山东大学第二医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1