【技术实现步骤摘要】
一种问题文本分析模型的训练方法及装置
[0001]本申请涉及计算机
,特别涉及一种问题文本分析模型的训练方法及装置、查询语句生成方法及装置、计算设备和计算机可读存储介质。
技术介绍
[0002]知识库问答(knowledge base question answering,KB-QA)即给定自然语言问题,通过对问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案。
[0003]传统的KB-QA方法可以归纳为语义解析,信息抽取和向量建模。现有的查询方案先通过查询知识库提取查询路径,然后使用特征做相似度匹配,费时费力,现有的一些人工智能模型方案遵循命名实体识别,实体链接,关系识别,答案检索的流程进行问答,使用多个模型分步骤进行,较为繁琐,消耗计算内存资源,查询效率也不够高。
[0004]因此,如何解决上述问题,就成为技术人员亟待解决的问题。
技术实现思路
[0005]有鉴于此,本申请实施例提供了一种问题文本分析模型的训练方法及装置、查询语句生成方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0006]根据本申请实施例的第一方面,提供了一种问题文本分析模型的训练方法,包括:
[0007]获取训练样本和所述训练样本对应的样本标签,其中,所述训练样本包括问题文本,所述样本标签包括所述问题文本对应的意图标签、关系标签和实体标签;
[0008]将所述问题文本输入至问题文本分析模型进行处理,提取所述问题文本的第一特征向量和第二特征向量 ...
【技术保护点】
【技术特征摘要】
1.一种问题文本分析模型的训练方法,其特征在于,包括:获取训练样本和所述训练样本对应的样本标签,其中,所述训练样本包括问题文本,所述样本标签包括所述问题文本对应的意图标签、关系标签和实体标签;将所述问题文本输入至问题文本分析模型进行处理,提取所述问题文本的第一特征向量和第二特征向量;根据所述第一特征向量确定所述问题文本的预测意图和预测关系,根据所述第二特征向量确定所述问题文本的预测实体;根据所述预测意图、所述预测关系和所述预测实体与所述意图标签、所述关系标签和所述实体标签计算损失值;根据所述损失值对所述问题文本分析模型进行迭代训练,直至达到训练停止条件。2.如权利要求1所述的问题文本分析模型的训练方法,其特征在于,根据所述第一特征向量确定所述问题文本的预测意图和预测关系,包括:根据所述第一特征向量和预设的意图库中的意图类别进行比对,确定所述第一特征向量对应的预测意图;根据所述第一特征向量和预设的关系库中的关系类别进行比对,确定所述第一特征向量对应的预测关系。3.如权利要求1所述的问题文本分析模型的训练方法,其特征在于,所述问题文本为二度问题文本;根据所述第一特征向量确定所述问题文本的预测意图和预测关系,包括:根据所述第一特征向量和预设的意图库中的意图类别进行比对,确定所述第一特征向量对应的一度预测意图和二度预测意图;根据所述第一特征向量和预设的关系库中的关系类别进行比对,确定所述第一特征向量对应的一度预测关系和二度预测关系。4.如权利要求1所述的问题文本分析模型的训练方法,其特征在于,根据所述第二特征向量确定所述问题文本的预测实体,包括:对所述第二特征向量做命名实体识别处理,获得所述问题文本的预测实体。5.如权利要求1所述的问题文本分析模型的训练方法,其特征在于,根据所述预测意图、所述预测关系和所述预测实体与所述意图标签、所述关系标签和所述实体标签计算损失值,包括:根据所述预测意图和所述意图标签计算第一损失值;根据所述预测关系和关系标签计算第二损失值;根据所述预测实体和所述实体标签计算第三损失值。6.如权利要求3所述的问题文本分析模型的训练方法,其特征在于,所述意图标签包括一度意图标签和二度意图标签,所述关系标签包括一度关系标签和二度关系标签;根据所述预测意图、所述预测关系和所述预测实体与所述意图标签、所述关系标签和所述实体标签计算损失值,包括:根据所述一度预测意图和所述一度意图标签、所述二度预测意图和所述二度意图标签计算第一损失值;根据所述一度预测关系和所述一度关系标签、所述二度预测关系和所述二度关系标签
计算第二损失值;根据所述预测实体和所述实体标签计算第三损失值。7.如权利要求5或6所述的问题文本分析模型的训练方法,其特征在于,根据所述损失值对所述问题文本分析模型进行迭代训练,包括:联合所述第一损失值、所述第二损失值和所述第三损失值对所述问题文本分析模型进行迭代训练。8.如权利要求1所述的问题文本分析模型的训练方法,其特征在于,所述训练停止条件包括:所述损失值小于预设阈值或迭代训练的次数到达预设的迭代次数。9.如权利要求1所述的问题文本分析模型的训练方法,其特征在于,提取所述问题文本的第一特征向量和第二特征向量,包括:将所述问题文本进行分词处理,得到所述问题文本对应的词单元集合;对所述词单元集合中的每个词单元做嵌入化处理,获得所述词单元集合对应的词单元向量集合;将所述词单元向量集合做编码处理,获得所述词单元集合的第一特征向量和第二特征向量。10.一种查询语句生成方法,其特征在于,包括:获取问题文本;将所述问题文本输...
【专利技术属性】
技术研发人员:汪洲,李长亮,汪美玲,
申请(专利权)人:北京金山数字娱乐科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。