一种信息处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号：27535299 阅读：18 留言：0更新日期：2021-03-03 11:20

本公开实施例公开了一种信息处理方法、装置、电子设备和存储介质，该方法包括：获取待识别的文本信息，并获取文本信息中各字符作为提取起点的预测起始概率，以及各字符作为提取终点的预测结束概率；根据各字符的预测起始概率确定目标起始字符，以及根据各字符的预测结束概率确定目标结束字符；根据目标起始字符和目标结束字符，提取文本信息中的有效信息。本公开实施例的技术方案，实现了对文本中有效信息的准确提取，对于未知领域或无匹配模板的文本信息，同样具备了文本提取能力，扩大了文本提取技术的应用范围，提高了有效信息的提取精度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
一种信息处理方法、装置、电子设备和存储介质

[0001]本公开实施例涉及文本处理技术，尤其涉及一种信息处理方法、装置、电子设备和存储介质。

技术介绍

[0002]随着互联网技术的不断发展，各种各样的文本信息出现在网络中，为人们提供了大量的信息资料，而在众多的信息资料中提取出有用的有效信息，也成为了文本处理领域的重要分支。
[0003]通常在获取到待识别的文本信息后，根据文本间的相似度判断该文本信息是否为有效信息，若相似度较高，则判断为有效信息进行保留，若相似度较低，则将待识别的文本信息判断为无效信息进行整体删除。

技术实现思路

[0004]本公开提供了一种信息处理方法、装置、电子设备和存储介质，以实现从待识别的文本信息中提取有效信息。
[0005]第一方面，本公开实施例提供了一种信息处理方法，包括：
[0006]获取待识别的文本信息，并获取所述文本信息中各字符作为提取起点的预测起始概率，以及各所述字符作为提取终点的预测结束概率；
[0007]根据各所述字符的预测起始概率确定目标起始字符，以及根据各所述字符的预测结束概率确定目标结束字符；
[0008]根据所述目标起始字符和所述目标结束字符，提取所述文本信息中的有效信息。
[0009]第二方面，本公开实施例提供了一种信息处理装置，包括：
[0010]预测概率获取模块，用于获取待识别的文本信息，并获取所述文本信息中各字符作为提取起点的预测起始概率，以及各所述字符作为提取终点的预测结束概率；
[...

【技术保护点】

【技术特征摘要】
1.一种信息处理方法，其特征在于，包括：获取待识别的文本信息，并获取所述文本信息中各字符作为提取起点的预测起始概率，以及各所述字符作为提取终点的预测结束概率；根据各所述字符的预测起始概率确定目标起始字符，以及根据各所述字符的预测结束概率确定目标结束字符；根据所述目标起始字符和所述目标结束字符，提取所述文本信息中的有效信息。2.根据权利要求1所述的方法，其特征在于，所述获取所述文本信息中各字符作为提取起点的预测起始概率，以及各所述字符作为提取终点的预测结束概率，包括：通过训练完成的序列抽取模型，获取所述文本信息中各字符作为提取起点的预测起始概率，以及各所述字符作为提取终点的预测结束概率。3.根据权利要求1所述的方法，其特征在于，在获取所述文本信息中各字符作为提取起点的预测起始概率，以及各所述字符作为提取终点的预测结束概率前，还包括：获取所述文本信息为包含无效信息文本的分类概率；所述获取所述文本信息中各字符作为提取起点的预测起始概率，以及各所述字符作为提取终点的预测结束概率，包括：若所述分类概率大于等于预设分类概率阈值，则获取所述文本信息中各字符作为提取起点的预测起始概率，以及各所述字符作为提取终点的预测结束概率。4.根据权利要求3所述的方法，其特征在于，所述获取所述文本信息为包含无效信息文本的分类概率，包括：通过训练完成的语义分类模型，获取所述文本信息为包含无效信息文本的分类概率。5.根据权利要求3所述的方法，其特征在于，在获取所述文本信息为包含无效信息文本的分类概率后，还包括：若所述分类概率小于预设分类概率阈值，则将所述文本信息作为有效信息。6.根据权利要求4所述的方法，其特征在于，在通过训练完成的语义分类模型，获取所述文本信息为包含无效信息文本的分类概率前，还包括：获取语义样本集合，并通过所述语义样本集合对初始语义分类模型进行语义分类训练，以获取训练完成的语义分类模型；其中，所述初始语义分类模型基于神经网络构建。7.根据权利要求2所述的方法，其特征在于，在通过训练完成的序列抽取模型，获取所述文本信息中各字符作为提取起点的预测起始概率，以及各所述字符作为提取终点的预测结束概率前，还包括：获取序列样本集合，并通过所述序列样本集合对初始序列抽取模型进行序列抽取训练，以获取训练完成的序列抽取模型。8.根据权利要求1-7任一项所述的方法，其特征在于，所述根据各所述字符的预测起始概率确定目标起始字符，包括：获取各所述预测起始概率中数值最高的第一预测起始概率，并判断所述第一预测起始概率对应的第一字符是否为文字；若判断所述第一字符为文字，则将所述第一字符作为目标起始字符；或者若判断所述第一字符不为文字，则获取除所述第一预测起始概率外，剩余预测起始概率中数值最高的第二预测起始概率，并判断与所述第二预测起始概率对应的第二字符是否
为文字，直至剩余预测起始概率中，与数值最高的目标预测起始概率对应的目标字符为文字为止，并将所述目标字...

【专利技术属性】
技术研发人员：王岩，柴琛林，张新松，李航，
申请(专利权)人：北京字节跳动网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人