一种融合类别信息的疫情问答系统相似问句识别方法技术方案

技术编号:34799758 阅读:59 留言:0更新日期:2022-09-03 20:05
本发明专利技术提出一种融合类别信息的疫情问答系统相似问句识别方法,是对特定领域问句的表示和处理的研究,属于数据识别领域。与现有技术相比,本发明专利技术所述疫情领域问答系统问句相似度计算方式将问句的类别信息作为重要因素嵌入句向量的生成过程,并采用多头注意力机制。基于上述理由,本发明专利技术不仅可以较好的解决疫情相关问题识别,也可在其他限定领域广泛推广。也可在其他限定领域广泛推广。也可在其他限定领域广泛推广。

【技术实现步骤摘要】
一种融合类别信息的疫情问答系统相似问句识别方法


[0001]本专利技术提出一种融合类别信息的疫情问答系统相似问句识别方法,是对特定领域问句的表示和处理的研究,属于数据识别领域。

技术介绍

[0002]2020年初,新冠肺炎疫情暴发,关于新冠肺炎的流行和发展状况信息在社交媒体上传播迅速,引起了公众的广泛关注与讨论,同时引发了民众在医疗健康类问答平台、社交媒体上的信息搜索热潮。由于疫情的特殊性,准确而科学的问答信息能够及时地解答网民的疑惑。此类疫情信息问答系统的搭建能够为疫情相关信息的收集与汇总综合提供平台。
[0003]文本相似度计算技术是自然语言处理领域一项重要的技术,其广泛应用在文本摘要生成、限定领域问答系统、抄袭检测、相似内容推荐等自然语言处理任务中。然而,对于汉语来说,同义词、否定含义以及复杂多样的句式结构都增加了计算的难度。在问答系统中,由于问题长度较短,没有上下文,而且用户提问的多样性和复杂性,对中文问答系统的准确性和推理能力有一定的要求。
[0004]传统的基于统计和向量空间的语义文本相似度计算方法无法有效捕捉句子的语义信息,基于语义树的方法精度不够,需要持续地人工维护。深度学习方法不仅可以有效提取句子特征,还可以捕捉句子上下文信息,达到较高的准确率。现有的深度学习方法大多是通过改进模型结构或研究模型的集成来寻求模型性能的提升,事实上句子的主语和焦点也可以反映问题的主要背景并指明提问者的主要关注领域和方向。
[0005]本专利技术创新之处是将疫情相关问题分类信息融入到问句向量的生成中,使向量生成部分承载了更多的语义信息,可以更好地学习句子的深层语义特征,在疫情领域问答系统的相似问句识别环节具有重要的实用意义。能够有效解决民众在疫情期间的各种相关问题,有利于民众对疫情形式的跟踪与及时地进行自我防护,有利于丰富现有健康信息分类体系和支撑有关部门掌握民众的健康信息需求动态从而制定更加切实有效的公共健康政策。

技术实现思路

[0006]本专利技术的目的是为了解决上述提出的疫情领域问答系统相似问句识别不够准确的技术问题,一种融合类别信息的疫情问答系统相似问句识别方法。本专利技术在句向量的生成过程中将疫情问句的类别信息作为嵌入层之一,利用注意力机制更好的获得句子的语义信息,从而提高相似语义识别的准确率与速度。
[0007]本专利技术的目的是通过下述技术方案实现的。
[0008]一种融合类别信息的疫情问答系统相似问句识别方法,包括以下步骤:
[0009]步骤1:在互联网上采集新冠肺炎疫情领域真实问句,形成问句集合D={d1,d2,...,d
j
,...d
n
},其中d
j
为采集到具体问句,根据Bert模型的向量生成方式对问句dj进行编码,并将问句的关键词作为问句相应的类别,最终形成包含类别信息和相应的问句的新
冠肺炎疫情领域问句的分类信息集;
[0010]步骤2:对步骤1中的dj的类别信息采用一位有效编码方式进行编码c
j
={0,0,0,1,0
……
,0};
[0011]步骤3:选择D中任意问句记作q,计算q与问句集合D中其他所有问句的相关性;将输入问句q分解为词素的集合,表示为q={q1,q2,q3,q4,...q
i
...},(1≤i≤m),根据词素q
i
分别在问句d
j
和问句集合D中出现的频次信息计算q
i
与d
j
的相关性,并对所有词素相对于d
j
的相关性进行加权,最后得出问句q与问句集D中某一问句d
j
的相关性得分Score(q,d
j
);计算公式如下:
[0012][0013]q
i
代表q分解后的词素,W
i
代表q
i
的权重,R(q
i
,d
j
)表示词素q
i
与句子d
j
的相关性;
[0014]W
i
计算公式如下:
[0015][0016]N是集合D中的问题数量,df(q
i
)表示包含词素q
i
的句子数;R(q
i
,d
j
)的计算公式如下:
[0017][0018][0019][0020]其中,1.2≤k1≤2.0,表示词素在句子中出现的频率与得分的关系;0≤b≤1,表示句子长度对计算平均长度的影响;tf(q
i
,d
j
)为d
j
中词素q
i
出现的频率,len(d
j
)为d
j
的长度,avdl为问句集D中所有问句的平均长度;
[0021]步骤4:将步骤3中得到Score(q,d
j
)按从大到小顺序进行排序,排序前20的对应问句构成问句集合D


[0022]步骤5:根据Bert模型的向量生成方式,将问句集合D

中所有问句的类别信息利用一位有效编码方式嵌入到Bert模型当中;首先,将步骤4中集合D

中的每一个问句转化为词的线性序列X=(x1,x2,
……
x
t
,...x
n
);然后,将词的线性序列X=(x1,x2,
……
x
t
,...x
n
)输入到Bert嵌入层;
[0023]将类别信息c
j
与Bert模型的三种不同的向量表示d
j
进行平均,合成向量E=(e1,e2,......,e
t
,...e
n
),作为Transformer编码器部分的输入;
[0024]步骤6:将步骤5中的X=(x1,x2,
……
x
t
,...x
n
)输入注意力机制模型进行问句全局特征的学习;首先将输入的句子信息记为Source,将Source分解成一系列(Key,Value)对,(Key,Value)对指D

中每个句子的对应位置字符的向量及其值,然后采用点乘的方式计算输入问句中的任意一个字符Query和每个Key的相关度Sim
i
(Key
i
,Query)=Key
i
·
Query;然后使用Softmax函数进行归一化从而得到问句中的字符在整个问句中的注意力的权值,用
a
i
表示,a
i
=L
x
是句子长度;最后将字符的注意力权值a
i
与字符实际的值Value
i
进行加权求和,并最终得到注意力分数进行加权求和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合类别信息的疫情问答系统相似问句识别方法,其特征在于包括以下步骤:步骤1:在互联网上采集新冠肺炎疫情领域真实问句,形成问句集合D={d1,d2...,d
j
,...d
n
},其中d
j
为采集到具体问句,根据Bert模型的向量生成方式对问句d
j
进行编码,并将问句的关键词作为问句相应的类别,最终形成包含类别信息和相应的问句的新冠肺炎疫情领域问句的分类信息集;步骤2:对步骤1中的d
j
的类别信息采用一位有效编码方式进行编码c
j
={0,0,0,1,0
……
,0};步骤3:选择问句集合D中任意问句记作q,计算q与问句集合D中其他所有问句的相关性;将输入问句q分解为词素的集合,表示为q={q1,q2,q3,q4,...q
i
...},(1≤i≤m),根据词素q
i
分别在问句d
j
和问句集合D中出现的频次信息计算q
i
与d
j
的相关性,并对所有词素相对于d
j
的相关性进行加权,最后得出问句q与问句集D中某一问句d
j
的相关性得分Score(q,d
j
);计算公式如下:q
i
代表q分解后的词素,W
i
代表q
i
的权重,R(q
i
,d
j
)表示词素q
i
与句子d
j
的相关性;W
i
计算公式如下:N是集合D中的问题数量,df(q
i
)表示包含词素q
i
的句子数;R(q
i
,d
j
)的计算公式如下:)的计算公式如下:)的计算公式如下:其中,1.2≤k1≤2.0,表示词素在句子中出现的频率与得分的关系;0≤b≤1,表示句子长度对计算平均长度的影响;tf(q
i
,d
j
)为d
j
中词素q
i
出现的频率,len(d
j
)为d
j
的长度,avdl为问句集D中所有问句的平均长度;步骤4:将步骤3中得到Score(q,d
j
)按从大到小顺序进行排序,排序前的对应问句构成问句集合D

;步骤5:根据Bert模型的向量生成方式,将问句集合D

中所有问句的类别信息利用一位有效编码方式嵌入到Bert模型当中;首先,将步骤4中集合D

中的每一个问句转化为词的线性序列X=(x1,x2,
……
x
t
,...x
n
);然后,将词的线性序列X=(x1,x2,
……
x
t
,...x
n
)输入到Bert嵌入层;将类别信息c
j
与Bert模型的三种...

【专利技术属性】
技术研发人员:高东平李美婷申喜凤张维宁孙媛媛南嘉乐
申请(专利权)人:中国医学科学院医学信息研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1