一种基于命名实体识别的问答系统构建方法技术方案

技术编号:31808475 阅读:11 留言:0更新日期:2022-01-08 11:10
本发明专利技术公开了一种基于命名实体识别的问答系统构建方法,该方法包括步骤1,构建问答数据库:步骤2,将问答数据库中的问题进行命名实体识别和非命名实体识别,步骤3,将步骤2的识别结果存储到问答数据库中对应字段,步骤4,计算相似度,将用户输入问题进行实体识别后和中文分词后,得到命名类实体和非命名类实体,从问答数据库中找到对应的实体问题作为候选问题,返回相似度最高的候选问题的答案;通过对问答数据库中的问题进行命名实体识别和中文分词,获得命名实体和非命名实体的词向量,进而获得相应的候选问题,根据改进的相似度计算方法,得到用户输入和候选问题的相似度,精准匹配出用户输入问题,提高了问答系统中答案的准确性。准确性。准确性。

【技术实现步骤摘要】
一种基于命名实体识别的问答系统构建方法


[0001]本专利技术涉及自然语言处理研究领域,具体涉及一种基于命名实体识别的问答系统构建方法。

技术介绍

[0002]移动互联网的高速发展,给互联网用户带来了丰富多样的信息。面对互联网上的海量信息,人们越来越依靠通过搜索引擎查询信息。但是,传统的搜索引擎返回大量的相关网页,用户很难从大量网页中快速准确地定位到与问题相匹配的正确答案。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:与传统搜索引擎不同,问答系统作为一种新型信息检索技术,能够直接返回给用户精确的答案,从而省去了用户从大量相关网页中寻找所需信息的时间。其中,短文本相似度计算在问答系统中具有重要作用,因为问题和答案都是短文本的形式,尤其是问题的长度一般不超过100字,包含的信息量较少;并且用户表达习惯不同,短文本问题中存在错别字、简称、口语化等不规范的表达,导致给出的答案质量有所下降。短文本与长文本不同,具有内容较短和特征稀疏等特点,导致短文本相似度计算度量效果较差。目前的短文本相似度方法无法有效解决短文本噪声词语的干扰问题,提高短文本相似度计算的准确性。因此需要提出新的语义相似度方法,提高自动返回用户答案的匹配精度。如何从短文本信息中挖掘出有价值的信息,准确定位到最相似的问句,返回用户最准确的答案,是一个亟待解决的问题。

技术实现思路

[0004]为了克服现有技术的不足,本专利技术提供了一种基于命名实体识别的问答系统构建方法,通过命名实体识别和非命名实体识别,去除了冗余信息,得到用户输入和候选问题的相似度,精准匹配出用户输入问题,提高了问答系统中答案的准确性。技术方案如下:
[0005]一种基于命名实体识别的问答系统构建方法,该方法包括如下步骤:
[0006]步骤1,构建问答数据库:
[0007]获取问答数据源,利用网络爬虫抓取问答类平台作为问答数据库的数据源,
[0008]抓取网页后需要进行数据清洗操作,清除无用数据,得到问题要素:问题、答案、答案时间、点赞数、评论数字段;根据问题要素计算每条答案记录的有效分数记S;根据有效分数S,针对每个问题,只保留一条有效分数最高的答案记录,存入问答数据库中。
[0009]步骤2,将问答数据库中的问题进行命名实体识别,所称命名实体识别是指识别出文本中具有特定意义的实体,包括人名、地名、组织机构名;使用BERT

BiLSTM

CRF模型对问答数据库中的问题进行命名实体识别,利用BERT生成输入内容的词向量语义表示,再连接BiLSTM

CRF模型。
[0010]使用BERT

BiLSTM

CRF模型进行实体识别的方法如下:
[0011](1)在BERT预训练语言模型内部使用双向的Transformer编码器对问题进行处理,构建Embedding层,获得每个词的向量表示,作为下游任务BiLSTM

CRF的输入。
[0012](2)通过BERT处理得到的词向量作为BiLSTM模型的输入,同时按正向和反向来处理序列输入,然后将同一时刻正向信息向量输出与反向信息向量的输出进行拼接,得到时刻t的句子表示通过正向和反向两个方向学习文本上下文之间的联系。
[0013](3)把BiLSTM层的输出作为CRF的输入序列X=(x1,x2,

,x
n
),x表示词向量,n表示输入词向量的个数,学习标签间的约束条件提升标签预测的准确性,得到最终的预测标签序列,为输入问题的每个位置打上标注信息。
[0014]将问答数据库中的问题进行中文分词,对非命名实体进行识别:使用百度LAC分词工具对问答数据库中的问题进行分词及词性标注,跳过对计算相似性没有价值的代词、形容词和副词,筛选出非命名实体类名词和非命名实体类动词。
[0015]步骤3,将步骤2的识别结果存储到问答数据库中对应字段,对数据库中的每个问题新增如下字段列:组织机构实体、人名实体、地点实体、非命名类实体名词和非命名类实体动词,将步骤2得到的命名类实体和非命名类实体分别存储到相应列中,其中每个元素包括存储实体名和实体词向量,若存在某一类中存在多个命名,则以逗号分隔存储。
[0016]步骤4,计算相似度,将用户输入问题进行实体识别后和中文分词后,得到命名类实体和非命名类实体,从问答数据库中找到对应的实体问题作为候选问题,通过改进的相似度计算方法,计算用户输入问题与候选问题的相似度,返回相似度最高的候选问题的答案;具体为:
[0017]将用户输入问题进行命名实体识别后,若存在命名实体,则从问答数据库中找到对应的命名实体的问题作为候选问题。
[0018]根据用户输入问题的词向量和其候选问题的词向量,计算相似度sim1
(x,y)
;对候选问题的相似度值进行排序,选择相似度分数最高的候选问题对应的答案作为用户输入问题的返回答案。
[0019]若不存在命名实体,则从问答数据库中找到对应的非命名实体的问题作为候选答案,根据用户输入问题的词向量和其候选问题的词向量,计算相似度sim2
(x,y)

[0020]对候选问题的相似度值进行排序,选择相似度分数最高的候选问题对应的答案作为用户输入问题的返回答案。
[0021]优选的,步骤1问答类平台选择如下平台中的一种或多种:百度贴吧、百度知道、搜搜问问、360问答、搜狐问答和知乎。
[0022]优选的,步骤1中每条答案记录的有效分数记S为:
[0023][0024]其中d=该答案记录距最新答案的天数+1,n1表示点赞数,n2表示评论数。
[0025]优选的,步骤1还包括定期定时爬取问答类平台对问答数据库进行更新,对于数据库中已存在的同一问题,通过计算新增答案的有效分数,若高于数据库中该问题答案的有效分数,则直接替换数据库中的该问题的答案;若低于数据库中该问题的有效分数,则数据库该问题的答案不变。
[0026]优选的,所述相似度sim1
(x,y)
计算方法如下:
[0027][0028]其中,W1,W2,

,W
a
表示命名类实体词向量,N1,N2,

N
b
表示非命名类实体名词词向量,V1,V2,

V
b
表示非命名类实体名词词向量,a表示命名类实体个数,b表示非命名类实体名词个数,c表示非命名类实体动词个数。
[0029]优选的,所述相似度sim2
(x,y)
计算方法如下:
[0030][0031]进一步的,步骤4所述从问答数据库中找到对应的命名实体的问题作为候选问题,是指找到相同词语,且其所属的实体类型一样的问题。
[0032]与现有技术相比,上述技术方案中的一个技术方案具有如下有益效果本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于命名实体识别的问答系统构建方法,其特征在于,该方法包括如下步骤:步骤1,构建问答数据库:获取问答数据源,利用网络爬虫抓取问答类平台作为问答数据库的数据源,抓取网页后需要进行数据清洗操作,清除无用数据,得到问题要素:问题、答案、答案时间、点赞数、评论数字段;根据问题要素计算每条答案记录的有效分数记S;根据有效分数S,针对每个问题,只保留一条有效分数最高的答案记录,存入问答数据库中;步骤2,将问答数据库中的问题进行命名实体识别和非命名实体识别,所称命名实体识别是指识别出文本中具有特定意义的实体,包括人名、地名、组织机构名;使用BERT

BiLSTM

CRF模型对问答数据库中的问题进行命名实体识别,利用BERT生成输入内容的词向量语义表示,再连接BiLSTM

CRF模型;使用BERT

BiLSTM

CRF模型进行实体识别的方法如下:(1)在BERT预训练语言模型内部使用双向的Transformer编码器对问题进行处理,构建Embedding层,获得每个词的向量表示,作为下游任务BiLSTM

CRF的输入;(2)通过BERT处理得到的词向量作为BiLSTM模型的输入,同时按正向和反向来处理序列输入,然后将同一时刻正向信息向量输出与反向信息向量的输出进行拼接,得到时刻t的句子表示通过正向和反向两个方向学习文本上下文之间的联系;(3)把BiLSTM层的输出作为CRF的输入序列X=(x1,x2,

,x
n
),x表示词向量,n表示输入词向量的个数,学习标签间的约束条件提升标签预测的准确性,得到最终的预测标签序列,为输入问题的每个位置打上标注信息;将问答数据库中的问题进行中文分词,对非命名实体进行识别:使用百度LAC分词工具对问答数据库中的问题进行分词及词性标注,跳过对计算相似性没有价值的代词、形容词和副词,筛选出非命名实体类名词和非命名实体类动词;步骤3,将步骤2的识别结果存储到问答数据库中对应字段,对数据库中的每个问题新增如下字段列:组织机构实体、人名实体、地点实体、非命名类实体名词和非命名类实体动词,将步骤2得到的命名类实体和非命名类实体分别存储到相应列中,其中每个元素包括存储实体名和实体词向量,若存在某一类中存在多个命名,则以逗号分隔存储;步骤4,计算相似度,将用户输入问题进行实体识别后和中文分词后,得到命名类实体和非命名类实体,从问答数据库中找到对应的实体问题作为候选问题,通过改进的相似度计算方法,计算用户...

【专利技术属性】
技术研发人员:周洁琴
申请(专利权)人:南京视察者智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1