一种融合类别信息的疫情问答系统相似问句识别方法技术方案

技术编号：34799758 阅读：59 留言：0更新日期：2022-09-03 20:05

本发明专利技术提出一种融合类别信息的疫情问答系统相似问句识别方法，是对特定领域问句的表示和处理的研究，属于数据识别领域。与现有技术相比，本发明专利技术所述疫情领域问答系统问句相似度计算方式将问句的类别信息作为重要因素嵌入句向量的生成过程，并采用多头注意力机制。基于上述理由，本发明专利技术不仅可以较好的解决疫情相关问题识别，也可在其他限定领域广泛推广。也可在其他限定领域广泛推广。也可在其他限定领域广泛推广。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合类别信息的疫情问答系统相似问句识别方法

[0001]本专利技术提出一种融合类别信息的疫情问答系统相似问句识别方法，是对特定领域问句的表示和处理的研究，属于数据识别领域。

技术介绍

[0002]2020年初，新冠肺炎疫情暴发，关于新冠肺炎的流行和发展状况信息在社交媒体上传播迅速，引起了公众的广泛关注与讨论，同时引发了民众在医疗健康类问答平台、社交媒体上的信息搜索热潮。由于疫情的特殊性，准确而科学的问答信息能够及时地解答网民的疑惑。此类疫情信息问答系统的搭建能够为疫情相关信息的收集与汇总综合提供平台。
[0003]文本相似度计算技术是自然语言处理领域一项重要的技术，其广泛应用在文本摘要生成、限定领域问答系统、抄袭检测、相似内容推荐等自然语言处理任务中。然而，对于汉语来说，同义词、否定含义以及复杂多样的句式结构都增加了计算的难度。在问答系统中，由于问题长度较短，没有上下文，而且用户提问的多样性和复杂性，对中文问答系统的准确性和推理能力有一定的要求。
[0004]传统的基于统计和向量空间的语义文本相似度计算方法无法有效捕捉句子的语义信息，基于语义树的方法精度不够，需要持续地人工维护。深度学习方法不仅可以有效提取句子特征，还可以捕捉句子上下文信息，达到较高的准确率。现有的深度学习方法大多是通过改进模型结构或研究模型的集成来寻求模型性能的提升，事实上句子的主语和焦点也可以反映问题的主要背景并指明提问者的主要关注领域和方向。
[0005]本专利技术创新之处是将疫情相关问题分类信息融入到问句向量的生成...

【技术保护点】

【技术特征摘要】
1.一种融合类别信息的疫情问答系统相似问句识别方法，其特征在于包括以下步骤：步骤1：在互联网上采集新冠肺炎疫情领域真实问句，形成问句集合D＝{d1，d2...,d
j
,...d
n
}，其中d
j
为采集到具体问句，根据Bert模型的向量生成方式对问句d
j
进行编码，并将问句的关键词作为问句相应的类别，最终形成包含类别信息和相应的问句的新冠肺炎疫情领域问句的分类信息集；步骤2：对步骤1中的d
j
的类别信息采用一位有效编码方式进行编码c
j
＝{0,0,0,1,0
……
,0}；步骤3：选择问句集合D中任意问句记作q，计算q与问句集合D中其他所有问句的相关性；将输入问句q分解为词素的集合，表示为q＝{q1,q2,q3,q4,...q
i
...}，(1≤i≤m)，根据词素q
i
分别在问句d
j
和问句集合D中出现的频次信息计算q
i
与d
j
的相关性，并对所有词素相对于d
j
的相关性进行加权，最后得出问句q与问句集D中某一问句d
j
的相关性得分Score(q,d
j
)；计算公式如下：q
i
代表q分解后的词素，W
i
代表q
i
的权重，R(q
i
,d
j
)表示词素q
i
与句子d
j
的相关性；W
i
计算公式如下：N是集合D中的问题数量，df(q
i
)表示包含词素q
i
的句子数；R(q
i
,d
j
)的计算公式如下：)的计算公式如下：)的计算公式如下：其中，1.2≤k1≤2.0，表示词素在句子中出现的频率与得分的关系；0≤b≤1，表示句子长度对计算平均长度的影响；tf(q
i
,d
j
)为d
j
中词素q
i
出现的频率，len(d
j
)为d
j
的长度，avdl为问句集D中所有问句的平均长度；步骤4：将步骤3中得到Score(q,d
j
)按从大到小顺序进行排序，排序前的对应问句构成问句集合D
’
；步骤5：根据Bert模型的向量生成方式，将问句集合D
’
中所有问句的类别信息利用一位有效编码方式嵌入到Bert模型当中；首先，将步骤4中集合D
’
中的每一个问句转化为词的线性序列X＝(x1,x2,
……
x
t
,...x
n
)；然后，将词的线性序列X＝(x1,x2,
……
x
t
,...x
n
)输入到Bert嵌入层；将类别信息c
j
与Bert模型的三种...

【专利技术属性】
技术研发人员：高东平，李美婷，申喜凤，张维宁，孙媛媛，南嘉乐，
申请(专利权)人：中国医学科学院医学信息研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人