一种基于命名实体识别的问答系统构建方法技术方案

技术编号：31808475 阅读：11 留言：0更新日期：2022-01-08 11:10

本发明专利技术公开了一种基于命名实体识别的问答系统构建方法，该方法包括步骤1，构建问答数据库：步骤2，将问答数据库中的问题进行命名实体识别和非命名实体识别，步骤3，将步骤2的识别结果存储到问答数据库中对应字段，步骤4，计算相似度，将用户输入问题进行实体识别后和中文分词后，得到命名类实体和非命名类实体，从问答数据库中找到对应的实体问题作为候选问题，返回相似度最高的候选问题的答案；通过对问答数据库中的问题进行命名实体识别和中文分词，获得命名实体和非命名实体的词向量，进而获得相应的候选问题，根据改进的相似度计算方法，得到用户输入和候选问题的相似度，精准匹配出用户输入问题，提高了问答系统中答案的准确性。准确性。准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于命名实体识别的问答系统构建方法

[0001]本专利技术涉及自然语言处理研究领域，具体涉及一种基于命名实体识别的问答系统构建方法。

技术介绍

[0002]移动互联网的高速发展，给互联网用户带来了丰富多样的信息。面对互联网上的海量信息，人们越来越依靠通过搜索引擎查询信息。但是，传统的搜索引擎返回大量的相关网页，用户很难从大量网页中快速准确地定位到与问题相匹配的正确答案。
[0003]在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：与传统搜索引擎不同，问答系统作为一种新型信息检索技术，能够直接返回给用户精确的答案，从而省去了用户从大量相关网页中寻找所需信息的时间。其中，短文本相似度计算在问答系统中具有重要作用，因为问题和答案都是短文本的形式，尤其是问题的长度一般不超过100字，包含的信息量较少；并且用户表达习惯不同，短文本问题中存在错别字、简称、口语化等不规范的表达，导致给出的答案质量有所下降。短文本与长文本不同，具有内容较短和特征稀疏等特点，导致短文本相似度计算度量效果较差。目前的短文本相似度方法无法有效解决短文本噪声词语的干扰问题，提高短文本相似度计算的准确性。因此需要提出新的语义相似度方法，提高自动返回用户答案的匹配精度。如何从短文本信息中挖掘出有价值的信息，准确定位到最相似的问句，返回用户最准确的答案，是一个亟待解决的问题。

技术实现思路

[0004]为了克服现有技术的不足，本专利技术提供了一种基于命名实体识别的问答系统构建方法，通过命名实体识别和非命名实体识别，去...

【技术保护点】

【技术特征摘要】
1.一种基于命名实体识别的问答系统构建方法，其特征在于，该方法包括如下步骤：步骤1，构建问答数据库：获取问答数据源，利用网络爬虫抓取问答类平台作为问答数据库的数据源，抓取网页后需要进行数据清洗操作，清除无用数据，得到问题要素：问题、答案、答案时间、点赞数、评论数字段；根据问题要素计算每条答案记录的有效分数记S；根据有效分数S，针对每个问题，只保留一条有效分数最高的答案记录，存入问答数据库中；步骤2，将问答数据库中的问题进行命名实体识别和非命名实体识别，所称命名实体识别是指识别出文本中具有特定意义的实体，包括人名、地名、组织机构名；使用BERT
‑
BiLSTM
‑
CRF模型对问答数据库中的问题进行命名实体识别，利用BERT生成输入内容的词向量语义表示，再连接BiLSTM
‑
CRF模型；使用BERT
‑
BiLSTM
‑
CRF模型进行实体识别的方法如下：(1)在BERT预训练语言模型内部使用双向的Transformer编码器对问题进行处理，构建Embedding层，获得每个词的向量表示，作为下游任务BiLSTM
‑
CRF的输入；(2)通过BERT处理得到的词向量作为BiLSTM模型的输入，同时按正向和反向来处理序列输入，然后将同一时刻正向信息向量输出与反向信息向量的输出进行拼接，得到时刻t的句子表示通过正向和反向两个方向学习文本上下文之间的联系；(3)把BiLSTM层的输出作为CRF的输入序列X＝(x1,x2,
…
,x
n
)，x表示词向量，n表示输入词向量的个数，学习标签间的约束条件提升标签预测的准确性，得到最终的预测标签序列，为输入问题的每个位置打上标注信息；将问答数据库中的问题进行中文分词，对非命名实体进行识别：使用百度LAC分词工具对问答数据库中的问题进行分词及词性标注，跳过对计算相似性没有价值的代词、形容词和副词，筛选出非命名实体类名词和非命名实体类动词；步骤3，将步骤2的识别结果存储到问答数据库中对应字段，对数据库中的每个问题新增如下字段列：组织机构实体、人名实体、地点实体、非命名类实体名词和非命名类实体动词，将步骤2得到的命名类实体和非命名类实体分别存储到相应列中，其中每个元素包括存储实体名和实体词向量，若存在某一类中存在多个命名，则以逗号分隔存储；步骤4，计算相似度，将用户输入问题进行实体识别后和中文分词后，得到命名类实体和非命名类实体，从问答数据库中找到对应的实体问题作为候选问题，通过改进的相似度计算方法，计算用户...

【专利技术属性】
技术研发人员：周洁琴，
申请(专利权)人：南京视察者智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人