【技术实现步骤摘要】
一种信息处理方法、装置、电子设备和存储介质
[0001]本公开实施例涉及文本处理技术,尤其涉及一种信息处理方法、装置、电子设备和存储介质。
技术介绍
[0002]随着互联网技术的不断发展,各种各样的文本信息出现在网络中,为人们提供了大量的信息资料,而在众多的信息资料中提取出有用的有效信息,也成为了文本处理领域的重要分支。
[0003]通常在获取到待识别的文本信息后,根据文本间的相似度判断该文本信息是否为有效信息,若相似度较高,则判断为有效信息进行保留,若相似度较低,则将待识别的文本信息判断为无效信息进行整体删除。
技术实现思路
[0004]本公开提供了一种信息处理方法、装置、电子设备和存储介质,以实现从待识别的文本信息中提取有效信息。
[0005]第一方面,本公开实施例提供了一种信息处理方法,包括:
[0006]获取待识别的文本信息,并获取所述文本信息中各字符作为提取起点的预测起始概率,以及各所述字符作为提取终点的预测结束概率;
[0007]根据各所述字符的预测起始概率确定目标起始字符,以及根据各所述字符的预测结束概率确定目标结束字符;
[0008]根据所述目标起始字符和所述目标结束字符,提取所述文本信息中的有效信息。
[0009]第二方面,本公开实施例提供了一种信息处理装置,包括:
[0010]预测概率获取模块,用于获取待识别的文本信息,并获取所述文本信息中各字符作为提取起点的预测起始概率,以及各所述字符作为提取终点的预测结束概率;
[ ...
【技术保护点】
【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:获取待识别的文本信息,并获取所述文本信息中各字符作为提取起点的预测起始概率,以及各所述字符作为提取终点的预测结束概率;根据各所述字符的预测起始概率确定目标起始字符,以及根据各所述字符的预测结束概率确定目标结束字符;根据所述目标起始字符和所述目标结束字符,提取所述文本信息中的有效信息。2.根据权利要求1所述的方法,其特征在于,所述获取所述文本信息中各字符作为提取起点的预测起始概率,以及各所述字符作为提取终点的预测结束概率,包括:通过训练完成的序列抽取模型,获取所述文本信息中各字符作为提取起点的预测起始概率,以及各所述字符作为提取终点的预测结束概率。3.根据权利要求1所述的方法,其特征在于,在获取所述文本信息中各字符作为提取起点的预测起始概率,以及各所述字符作为提取终点的预测结束概率前,还包括:获取所述文本信息为包含无效信息文本的分类概率;所述获取所述文本信息中各字符作为提取起点的预测起始概率,以及各所述字符作为提取终点的预测结束概率,包括:若所述分类概率大于等于预设分类概率阈值,则获取所述文本信息中各字符作为提取起点的预测起始概率,以及各所述字符作为提取终点的预测结束概率。4.根据权利要求3所述的方法,其特征在于,所述获取所述文本信息为包含无效信息文本的分类概率,包括:通过训练完成的语义分类模型,获取所述文本信息为包含无效信息文本的分类概率。5.根据权利要求3所述的方法,其特征在于,在获取所述文本信息为包含无效信息文本的分类概率后,还包括:若所述分类概率小于预设分类概率阈值,则将所述文本信息作为有效信息。6.根据权利要求4所述的方法,其特征在于,在通过训练完成的语义分类模型,获取所述文本信息为包含无效信息文本的分类概率前,还包括:获取语义样本集合,并通过所述语义样本集合对初始语义分类模型进行语义分类训练,以获取训练完成的语义分类模型;其中,所述初始语义分类模型基于神经网络构建。7.根据权利要求2所述的方法,其特征在于,在通过训练完成的序列抽取模型,获取所述文本信息中各字符作为提取起点的预测起始概率,以及各所述字符作为提取终点的预测结束概率前,还包括:获取序列样本集合,并通过所述序列样本集合对初始序列抽取模型进行序列抽取训练,以获取训练完成的序列抽取模型。8.根据权利要求1-7任一项所述的方法,其特征在于,所述根据各所述字符的预测起始概率确定目标起始字符,包括:获取各所述预测起始概率中数值最高的第一预测起始概率,并判断所述第一预测起始概率对应的第一字符是否为文字;若判断所述第一字符为文字,则将所述第一字符作为目标起始字符;或者若判断所述第一字符不为文字,则获取除所述第一预测起始概率外,剩余预测起始概率中数值最高的第二预测起始概率,并判断与所述第二预测起始概率对应的第二字符是否
为文字,直至剩余预测起始概率中,与数值最高的目标预测起始概率对应的目标字符为文字为止,并将所述目标字...
【专利技术属性】
技术研发人员:王岩,柴琛林,张新松,李航,
申请(专利权)人:北京字节跳动网络技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。