本发明专利技术实施例提供了一种文本处理方法、装置、电子设备和存储介质,所述方法包括:获取待处理文本和查询语句;将查询语句与多个预设类别对应的预设标准问题进行匹配,得到查询语句对应的预设类别;采用预先训练的文本处理模型,从待处理文本分类得到待处理文本包含的预设类别对应的答案位置信息;以及根据查询语句对应的预设类别和答案位置信息对应的预设类别,确定查询语句匹配的答案位置信息;根据查询语句匹配的答案位置信息,从待处理文本中确定预测答案文本。本申请实施例可以得到按照多个预设类别进行分类的答案位置信息,以对抽取的信息进行有效分类,并从中确定与查询语句的预设类别匹配的信息,精准符合用户需求。精准符合用户需求。精准符合用户需求。
【技术实现步骤摘要】
一种文本处理方法、装置、电子设备和存储介质
[0001]本专利技术涉及人工智能
,特别是涉及一种文本处理方法、一种文本处理装置、一种电子设备和一种计算机可读存储介质。
技术介绍
[0002]在招聘平台上,每天都有大量招聘信息的发布及更新,用户可以浏览招聘帖子来决定是否进行投递,并与招聘方进行在线沟通。然而,在回答用户问题的智能对话场景中,需要对招聘的帖子信息进行抽取,对招聘帖子的信息进行抽取时,根据用户需求得到的信息抽取结果准确度低,覆盖范围窄,无法精准符合用户需求,导致用户体验较差。
技术实现思路
[0003]鉴于上述问题,提出了本专利技术实施例以便提供克服上述问题或者至少部分地解决上述问题的一种文本处理方法、一种文本处理装置、一种电子设备和一种计算机可读存储介质。
[0004]为了解决上述问题,本专利技术实施例公开了一种文本处理方法,所述方法包括:
[0005]获取待处理文本和查询语句;
[0006]将所述查询语句与多个预设类别对应的预设标准问题进行匹配,得到所述查询语句对应的预设类别;
[0007]采用预先训练的文本处理模型,从所述待处理文本分类得到所述待处理文本包含的预设类别对应的答案位置信息;以及根据所述查询语句对应的预设类别和所述答案位置信息对应的预设类别,确定所述查询语句匹配的答案位置信息;
[0008]根据所述查询语句匹配的答案位置信息,从所述待处理文本中确定预测答案文本。
[0009]可选地,所述文本处理模型包括文本抽取模块和全连接层;所述采用预先训练的文本处理模型,从所述待处理文本分类得到所述待处理文本包含的预设类别对应的答案位置信息,包括:
[0010]将所述待处理文本输入文本处理模型的文本抽取模块,由所述文本抽取模块对所述待处理文本进行编码,得到句子特征和字特征;
[0011]将所述字特征和句子特征输入所述文本处理模型的全连接层,由所述全连接层根据所述句子特征,按照多个预设类别对所述待处理文本进行分类,确定所述待处理文本包含的预设类别;以及由所述全连接层根据所述字特征,从所述待处理文本中确定所述待处理文本包含的预设类别对应的多个答案位置信息。
[0012]可选地,所述文本处理模型包括第一分类层;所述根据所述查询语句对应的预设类别和所述答案位置信息,确定所述查询语句匹配的答案位置信息,包括:
[0013]将所述句子特征输入所述文本处理模型的第一分类层,由所述第一分类层根据所述查询语句对应的预设类别,从所述全连接层确定的多个答案位置信息中,查找与所述查
询语句对应的预设类别匹配的答案位置信息,以确定所查询语句匹配的答案位置信息。
[0014]可选地,通过如下方式训练所述文本处理模型:
[0015]获取训练数据,所述训练数据包括训练文本和所述训练文本对应的文本标注;所述文本标注包括预设类别对应的标准问题和与所述标准问题匹配的真实答案信息;
[0016]采用文本处理模型,从所述训练文本分类出各个所述预设类别对应的答案位置信息;根据所述标准问题对应的预设类别和所述答案位置信息对应的预设类别,确定所述标准问题匹配的答案位置信息;根据所述标准问题匹配的答案位置信息,确定预测答案文本;以及确定所述训练文本中符合所述真实答案信息的真实答案片段;
[0017]根据所述标准问题匹配的答案位置信息、所述预测答案文本、所述真实答案片段和所述文本标注,确定损失函数值;
[0018]根据所述损失函数值,调整所述文本处理模型参数以对所述文本处理模型进行训练。
[0019]可选地,所述真实答案信息包括真实答案文本;所述文本处理模块包括文本抽取模块和第二分类层;所述确定所述训练文本中符合所述真实答案信息的真实答案片段,包括:
[0020]将所述训练文本输入所述文本抽取模块,由所述文本抽取模块对所述训练文本进行编码,得到句子特征;
[0021]将所述句子特征输入所述第二分类层,由所述第二分类层判断所述训练文本中的每个字是否出现在真实答案文本中,得到所述训练文本中每个字的判断结果;
[0022]根据所述判断结果,确定由出现在所述真实答案文本中的字组成的真实答案片段。
[0023]本专利技术实施例还公开了一种文本处理装置,所述装置包括:
[0024]获取模块,用于获取待处理文本和查询语句;
[0025]查询语句匹配模块,用于将所述查询语句与多个预设类别对应的预设标准问题进行匹配,得到所述查询语句对应的预设类别;
[0026]模型处理模块,用于采用预先训练的文本处理模型,从所述待处理文本分类得到所述待处理文本包含的预设类别对应的答案位置信息;以及根据所述查询语句对应的预设类别和所述答案位置信息对应的预设类别,确定所述查询语句匹配的答案位置信息;
[0027]答案确定模块,用于根据所述查询语句匹配的答案位置信息,从所述待处理文本中确定预测答案文本。
[0028]可选地,所述文本处理模型包括文本抽取模块和全连接层;所述模型处理模块,包括:
[0029]编码子模块,用于将所述待处理文本输入文本处理模型的文本抽取模块,由所述文本抽取模块对所述待处理文本进行编码,得到句子特征和字特征;
[0030]答案位置信息确定子模块,用于将所述字特征和句子特征输入所述文本处理模型的全连接层,由所述全连接层根据所述句子特征,按照多个预设类别对所述待处理文本进行分类,确定所述待处理文本包含的预设类别;以及由所述全连接层根据所述字特征,从所述待处理文本中确定所述待处理文本包含的预设类别对应的多个答案位置信息。
[0031]可选地,所述文本处理模型包括第一分类层;所述模型处理模块,包括:
[0032]答案位置信息匹配子模块,用于将所述句子特征输入所述文本处理模型的第一分类层,由所述第一分类层根据所述查询语句对应的预设类别,从所述全连接层确定的多个答案位置信息中,查找与所述查询语句对应的预设类别匹配的答案位置信息,以确定所述查询语句匹配的答案位置信息。
[0033]可选地,通过如下方式训练所述文本处理模型:
[0034]训练数据获取模块,用于获取训练数据,所述训练数据包括训练文本和所述训练文本对应的文本标注;所述文本标注包括预设类别对应的标准问题和与所述标准问题匹配的真实答案信息;
[0035]模型训练模块,用于采用文本处理模型,从所述训练文本分类出各个所述预设类别对应的答案位置信息;根据所述标准问题对应的预设类别和所述答案位置信息对应的预设类别,确定所述标准问题匹配的答案位置信息;根据所述标准问题匹配的答案位置信息,确定预测答案文本;以及确定所述训练文本中符合所述真实答案信息的真实答案片段;
[0036]损失函数确定模块,用于根据所述标准问题匹配的答案位置信息、所述预测答案文本、所述真实答案片段和所述文本标注,确定损失函数值;
[0037]模型参数调整模块,用于根据所述损失函数值,调整所述文本处理模型参数以对所述文本本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:获取待处理文本和查询语句;将所述查询语句与多个预设类别对应的预设标准问题进行匹配,得到所述查询语句对应的预设类别;采用预先训练的文本处理模型,从所述待处理文本分类得到所述待处理文本包含的预设类别对应的答案位置信息;以及根据所述查询语句对应的预设类别和所述答案位置信息对应的预设类别,确定所述查询语句匹配的答案位置信息;根据所述查询语句匹配的答案位置信息,从所述待处理文本中确定预测答案文本。2.根据权利要求1所述的方法,其特征在于,所述文本处理模型包括文本抽取模块和全连接层;所述采用预先训练的文本处理模型,从所述待处理文本分类得到所述待处理文本包含的预设类别对应的答案位置信息,包括:将所述待处理文本输入文本处理模型的文本抽取模块,由所述文本抽取模块对所述待处理文本进行编码,得到句子特征和字特征;将所述字特征和句子特征输入所述文本处理模型的全连接层,由所述全连接层根据所述句子特征,按照多个预设类别对所述待处理文本进行分类,确定所述待处理文本包含的预设类别;以及由所述全连接层根据所述字特征,从所述待处理文本中确定所述待处理文本包含的预设类别对应的多个答案位置信息。3.根据权利要求2所述的方法,其特征在于,所述文本处理模型包括第一分类层;所述根据所述查询语句对应的预设类别和所述答案位置信息对应的预设类别,确定所述查询语句匹配的答案位置信息,包括:将所述句子特征输入所述文本处理模型的第一分类层,由所述第一分类层根据所述查询语句对应的预设类别,从所述全连接层确定的多个答案位置信息中,查找与所述查询语句对应的预设类别匹配的答案位置信息,以确定所述查询语句匹配的答案位置信息。4.根据权利要求1所述的方法,其特征在于,通过如下方式训练所述文本处理模型:获取训练数据,所述训练数据包括训练文本和所述训练文本对应的文本标注;所述文本标注包括预设类别对应的标准问题和与所述标准问题匹配的真实答案信息;采用文本处理模型,从所述训练文本分类出各个所述预设类别对应的答案位置信息;根据所述标准问题对应的预设类别和所述答案位置信息对应的预设类别,确定所述标准问题匹配的答案位置信息;根据所述标准问题匹配的答案位置信息,确定预测答案文本;以及确定所述训练文本中符合所述真实答案信息的真实答案片段;根据所述标准问题匹配的答案位置信息、所述预测答案文本、所述真实答案片段和所述文本标注,确定损失函数值;根据所述损失函数值,调整所述文本处理模型参数以对所述文本处理模型进行训练。5.根据权利要求4所述的方法,其特征在于,所述真实答案信息包括真实答案文本;所述文本处理模块包括文本抽取模块和第二分类层;所述确定所述训练文本中符合所述真实答案信息的真实答案片段,包括:将所述训练文本输入所述文本抽取模块,由所述文本抽取模块对所述训练...
【专利技术属性】
技术研发人员:高文龙,曾钦榜,周超,
申请(专利权)人:北京五八信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。