一种结构化自监督的医患对话摘要方法技术

技术编号:33039009 阅读:12 留言:0更新日期:2022-04-15 09:18
本发明专利技术公开了一种结构化自监督的医患对话摘要方法。本发明专利技术包括:1、对医患对话语料库中指定对话的诊断结果抽取疾病实体词Ⅰ;2.通过SOAP模型判断指定对话中每一句话对应主题类型并进行分类,得到初步的结构化内容;对结构化内容抽取摘要;通过抽取的摘要预测疾病实体词Ⅱ;3、基于抽取的摘要需近似于原始指定对话的替换假设,通过辅助任务进行摘要指导生成:对结构化内容进行编码过程中对结构化内容中的每个词进行下采样,然后通过文本分类从候选疾病词中选择正确的疾病实体词Ⅱ;调整编码参数直至辅助任务中疾病实体词Ⅰ和疾病实体词Ⅱ的差异收敛。本发明专利技术解决了医患对话数据集有限、显著的领域转移、摘要不准确的问题。摘要不准确的问题。摘要不准确的问题。

【技术实现步骤摘要】
一种结构化自监督的医患对话摘要方法


[0001]本专利技术涉及自然语言处理
,具体地,涉及一种结构化自监督的医患对话摘要方法。

技术介绍

[0002]对话摘要从对话上下文中提取关键信息并将其概括为简明摘要。作为一个至关重要的新话题,它为许多场景提供了强大的潜力,例如多人参与的商务会议、医患对话。它还帮助快速访问并消费对话中的基本内容。
[0003]对话摘要的主要尝试是基于模板在原始文本中提取关键信息并将其填充到学习模板中。然而,这些基于模板的技术限制了它们的应用范围,并不能适应更广泛的对话数据,因为它们的输入结构是预定义的。后来,通过利用对话行为或关键点序列探索标记辅助信息对摘要生成的帮助。
[0004]近年来,预训练的Transformer模型在自然语言处理方面取得了许多突破,例如作为最先进的改进以及有低资源任务训练有效模型的能力。使用大型预训练的Transformer模型证明的迁移学习能力引起了人们在各个NLP域中使用该模型的兴趣。医学领域为实际应用提供了较大挑战和巨大潜力。在医患对话记录自动生成医学摘要仍存在一些挑战,例如受监督数据的可用性有限、通常用于预训练的文本的大量域转移,以及可能超过传统转换器长度限制的长对话。
[0005]现有的关于医患对话记录摘要的工作仅有有限的成功,无论是使用预训练模型还是其他方式。有的依靠额外的监督来训练分类器来提取与目标摘要相关的值得注意的话语,并且没有处理与他们预训练模型的长对话,并且他们的实例结果流畅性较差。其他提取方法的现有工作没有很好地适应对话的非正式性质以及信息可能不存在对于对话记录的任何单个跨度中的事实。

技术实现思路

[0006]本专利技术的目的在于提供一种结构化自监督的医患对话摘要方法,该方法认为好的摘要可以与原始对话的语义作替换,这为完成辅助任务提供等效信息。
[0007]为达到上述目的,本专利技术提供如下技术方案:
[0008]S1、对医患对话语料库中指定对话的诊断结果抽取疾病实体词Ⅰ;
[0009]S2、通过SOAP模型判断指定对话中每一句话对应主题类型并进行分类,得到初步的结构化内容;对结构化内容抽取摘要;通过抽取的摘要预测疾病实体词Ⅱ;
[0010]S3、基于抽取的摘要需近似于原始指定对话的替换假设,通过辅助任务进行摘要指导生成:首先对结构化内容进行编码,编码过程中对结构化内容中的每个词进行下采样,下采样后将它们用编码器enc编码,然后通过文本分类从候选疾病词中选择正确的疾病实体词Ⅱ;采用RepSum策略调整编码参数,直至辅助任务中疾病实体词Ⅰ和疾病实体词Ⅱ的差异收敛。
[0011]步骤S1文本生成TG采用编码器

解码器结构,整个诊断结果由双向LSTM连接和编码;每个词的表示是前向和后向LSTM状态的串联,表示编码中第i个词;解码器采用具有注意力机制的单向LSTM,在t时刻的注意力分布a
t
和上下文向量c
t
被公式化为:
[0012][0013][0014]其中,W
a
是可学习的参数,σ是softmax函数,n表示诊断结果词的数量;s
t
表示当前解码器状态;表示第i个词在t时刻的注意力分布;a
i
表示第i个词的注意力分布;
[0015]看上下文向量和当前解码器状态s
t
用于预测输出词在所有词汇表上的概率分布:
[0016]p(y
t
)=σ(W
p
(φ(W
k
[y
t
‑1;s
t
;c
t
]+b
k
))+b
p
)
ꢀꢀ
(3)
[0017]其中,W
p
、W
k
、b
k
、b
p
是可学习的参数;σ是softmax函数,φ是tanh函数,y
t
表示预测输出词,y
t
‑1表示前一个预测输出词;p(y
t
)表示y
t
的概率分布;
[0018]采用负对数似然作为损失函数,并通过路径enc
res

dec
res
得到生成的损失表示为:
[0019][0020]其中,enc
res
表示编码器;dec
res
表示解码器,l={l1,l2,

,l
q
}是生成的词,q表示生成的词数量;
[0021]类似地,通过enc
sum

dec
sum
计算得到生成摘要的损失
[0022][0023]其中,enc
sum
表示编码器,dec
sum
表示解码器;
[0024]为了保证基于原始指定对话和生成的摘要的结果相似性,解码器中添加KL散度以减少每个时间预测的概率分布之间的差异损失:
[0025][0026]因此,最终生成摘要的任务损失表示为:
[0027][0028]其中,α0、α1、α2是每个损失部分的权重。
[0029]步骤S2所述的主题类型包括症状、用药、个人属性、检查结果、过往病史;使用SOAP模型对每一句话进行计算并标注对应主题,形成初步的结构化内容。
[0030]步骤S3具体实现如下:
[0031]对结构化内容进行编码,编码过程中对结构化内容中的每个词进行下采样,并将它们经过编码器enc编码;在前向训练和测试过程中,使用argmax采样进行离散化,简化为:
[0032][0033]g=

log(

log(ξ)),ξ~U(0,1)
ꢀꢀꢀ
(9)
[0034]其中,g是Gumble函数的贡献,U是统一化后的贡献;
[0035]计算反向传播中的梯度,使用argmax采样的连续可微近似:
[0036][0037]其中,|V|是词汇大小,τ∈(0,∞)是临时参数;g
j
表示第j个词的贡献;表示第i个词在t时间步骤的概率;
[0038]编码器enc
sum
的输入表示为:
[0039][0040]其中,e(w
i
)是第i个词w
i
嵌入;
[0041]辅助任务:文本分类TC从K个候选疾病词中选择正确的疾病实体词Ⅱ;与任务TG中的编码类似,使用Bi

LSTM作为编码器;文本表示h
d
是每个词的隐藏状态的平均值;每个候选词也由Bi

LSTM编码,并由逻辑层f投影到一个密集向量,然后连接到h
d
;每个词属于正确答案的概率由逻辑层计算,其损失公式为:
[0042]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结构化自监督的医患对话摘要方法,其特征在于:该方法包括以下步骤:S1、对医患对话语料库中指定对话的诊断结果抽取疾病实体词I;S2、通过SOAP模型判断指定对话中每一句话对应主题类型并进行分类,得到初步的结构化内容;对结构化内容抽取摘要;通过抽取的摘要预测疾病实体词II;S3、基于抽取的摘要需近似于原始指定对话的替换假设,通过辅助任务进行摘要指导生成:首先对结构化内容进行编码,编码过程中对结构化内容中的每个词进行下采样,下采样后将它们编码;然后通过文本分类从候选疾病词中选择正确的疾病实体词II;采用RepSum策略调整编码参数,直至辅助任务中疾病实体词I和疾病实体词II的差异收敛。2.根据权利要求1所述的一种结构化自监督的医患对话摘要方法,其特征在于步骤S1文本生成TG采用编码器

解码器结构,整个诊断结果由双向LSTM连接和编码;每个词的表示是前向和后向LSTM状态的串联,表示编码中第i个词;解码器采用具有注意力机制的单向LSTM,在t时刻的注意力分布a
t
和上下文向量c
t
被公式化为:被公式化为:其中,W
a
是可学习的参数,σ是softmax函数,n表示诊断结果词的数量;s
t
表示当前解码器状态;表示第i个词在t时刻的注意力分布;a
i
表示第i个词的注意力分布;看上下文向量和当前解码器状态s
t
用于预测输出词在所有词汇表上的概率分布:p(y
t
)=σ(W
p
(φ(W
k
[y
t
‑1;s
t
;c
t
]+b
k
))+b
p
)
ꢀꢀꢀꢀꢀꢀ
(3)其中,W
p
、W
k
、b
k
、b
p
是可学习的参数;σ是softmax函数,φ是tanh函数,y
t
表示预测输出词,y
t
‑1表示前一个预测输出词;p(y
t
)表示y
t
的概率分布;采用负对数似然作为损失函数,并通过路径enc
res

dec
res
得到生成的损失表示为:其中,enc
res
表示编码器;dec
res
表示解码器...

【专利技术属性】
技术研发人员:姜明吴锴张旻
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1