【技术实现步骤摘要】
一种基于命名实体识别的问答系统构建方法
[0001]本专利技术涉及自然语言处理研究领域,具体涉及一种基于命名实体识别的问答系统构建方法。
技术介绍
[0002]移动互联网的高速发展,给互联网用户带来了丰富多样的信息。面对互联网上的海量信息,人们越来越依靠通过搜索引擎查询信息。但是,传统的搜索引擎返回大量的相关网页,用户很难从大量网页中快速准确地定位到与问题相匹配的正确答案。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:与传统搜索引擎不同,问答系统作为一种新型信息检索技术,能够直接返回给用户精确的答案,从而省去了用户从大量相关网页中寻找所需信息的时间。其中,短文本相似度计算在问答系统中具有重要作用,因为问题和答案都是短文本的形式,尤其是问题的长度一般不超过100字,包含的信息量较少;并且用户表达习惯不同,短文本问题中存在错别字、简称、口语化等不规范的表达,导致给出的答案质量有所下降。短文本与长文本不同,具有内容较短和特征稀疏等特点,导致短文本相似度计算度量效果较差。目前的短文本相似度方法无法有效解决短文本噪声词语的干扰问题,提高短文本相似度计算的准确性。因此需要提出新的语义相似度方法,提高自动返回用户答案的匹配精度。如何从短文本信息中挖掘出有价值的信息,准确定位到最相似的问句,返回用户最准确的答案,是一个亟待解决的问题。
技术实现思路
[0004]为了克服现有技术的不足,本专利技术提供了一种基于命名实体识别的问答系统构建方法,通过命名实体识别和非命名实体识别,去 ...
【技术保护点】
【技术特征摘要】
1.一种基于命名实体识别的问答系统构建方法,其特征在于,该方法包括如下步骤:步骤1,构建问答数据库:获取问答数据源,利用网络爬虫抓取问答类平台作为问答数据库的数据源,抓取网页后需要进行数据清洗操作,清除无用数据,得到问题要素:问题、答案、答案时间、点赞数、评论数字段;根据问题要素计算每条答案记录的有效分数记S;根据有效分数S,针对每个问题,只保留一条有效分数最高的答案记录,存入问答数据库中;步骤2,将问答数据库中的问题进行命名实体识别和非命名实体识别,所称命名实体识别是指识别出文本中具有特定意义的实体,包括人名、地名、组织机构名;使用BERT
‑
BiLSTM
‑
CRF模型对问答数据库中的问题进行命名实体识别,利用BERT生成输入内容的词向量语义表示,再连接BiLSTM
‑
CRF模型;使用BERT
‑
BiLSTM
‑
CRF模型进行实体识别的方法如下:(1)在BERT预训练语言模型内部使用双向的Transformer编码器对问题进行处理,构建Embedding层,获得每个词的向量表示,作为下游任务BiLSTM
‑
CRF的输入;(2)通过BERT处理得到的词向量作为BiLSTM模型的输入,同时按正向和反向来处理序列输入,然后将同一时刻正向信息向量输出与反向信息向量的输出进行拼接,得到时刻t的句子表示通过正向和反向两个方向学习文本上下文之间的联系;(3)把BiLSTM层的输出作为CRF的输入序列X=(x1,x2,
…
,x
n
),x表示词向量,n表示输入词向量的个数,学习标签间的约束条件提升标签预测的准确性,得到最终的预测标签序列,为输入问题的每个位置打上标注信息;将问答数据库中的问题进行中文分词,对非命名实体进行识别:使用百度LAC分词工具对问答数据库中的问题进行分词及词性标注,跳过对计算相似性没有价值的代词、形容词和副词,筛选出非命名实体类名词和非命名实体类动词;步骤3,将步骤2的识别结果存储到问答数据库中对应字段,对数据库中的每个问题新增如下字段列:组织机构实体、人名实体、地点实体、非命名类实体名词和非命名类实体动词,将步骤2得到的命名类实体和非命名类实体分别存储到相应列中,其中每个元素包括存储实体名和实体词向量,若存在某一类中存在多个命名,则以逗号分隔存储;步骤4,计算相似度,将用户输入问题进行实体识别后和中文分词后,得到命名类实体和非命名类实体,从问答数据库中找到对应的实体问题作为候选问题,通过改进的相似度计算方法,计算用户...
【专利技术属性】
技术研发人员:周洁琴,
申请(专利权)人:南京视察者智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。