一种信息处理方法、装置、电子设备和存储介质制造方法及图纸

技术编号:27535299 阅读:18 留言:0更新日期:2021-03-03 11:20
本公开实施例公开了一种信息处理方法、装置、电子设备和存储介质,该方法包括:获取待识别的文本信息,并获取文本信息中各字符作为提取起点的预测起始概率,以及各字符作为提取终点的预测结束概率;根据各字符的预测起始概率确定目标起始字符,以及根据各字符的预测结束概率确定目标结束字符;根据目标起始字符和目标结束字符,提取文本信息中的有效信息。本公开实施例的技术方案,实现了对文本中有效信息的准确提取,对于未知领域或无匹配模板的文本信息,同样具备了文本提取能力,扩大了文本提取技术的应用范围,提高了有效信息的提取精度。度。度。

【技术实现步骤摘要】
一种信息处理方法、装置、电子设备和存储介质


[0001]本公开实施例涉及文本处理技术,尤其涉及一种信息处理方法、装置、电子设备和存储介质。

技术介绍

[0002]随着互联网技术的不断发展,各种各样的文本信息出现在网络中,为人们提供了大量的信息资料,而在众多的信息资料中提取出有用的有效信息,也成为了文本处理领域的重要分支。
[0003]通常在获取到待识别的文本信息后,根据文本间的相似度判断该文本信息是否为有效信息,若相似度较高,则判断为有效信息进行保留,若相似度较低,则将待识别的文本信息判断为无效信息进行整体删除。

技术实现思路

[0004]本公开提供了一种信息处理方法、装置、电子设备和存储介质,以实现从待识别的文本信息中提取有效信息。
[0005]第一方面,本公开实施例提供了一种信息处理方法,包括:
[0006]获取待识别的文本信息,并获取所述文本信息中各字符作为提取起点的预测起始概率,以及各所述字符作为提取终点的预测结束概率;
[0007]根据各所述字符的预测起始概率确定目标起始字符,以及根据各所述字符的预测结束概率确定目标结束字符;
[0008]根据所述目标起始字符和所述目标结束字符,提取所述文本信息中的有效信息。
[0009]第二方面,本公开实施例提供了一种信息处理装置,包括:
[0010]预测概率获取模块,用于获取待识别的文本信息,并获取所述文本信息中各字符作为提取起点的预测起始概率,以及各所述字符作为提取终点的预测结束概率;
[0011]目标字符获取模块,用于根据各所述字符的预测起始概率确定目标起始字符,以及根据各所述字符的预测结束概率确定目标结束字符;
[0012]第一有效信息获取模块,用于根据所述目标起始字符和所述目标结束字符,提取所述文本信息中的有效信息。
[0013]第三方面,本公开实施例提供了一种电子设备,包括存储器、处理装置及存储在存储器上并可在处理装置上运行的计算机程序,处理装置执行程序时实现本公开任意实施例的信息处理方法。
[0014]第四方面,本公开实施例提供了一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行本公开任意实施例的信息处理方法。
[0015]本公开实施例的技术方案,获取待识别文本信息中各字符作为提取起点的预测起始概率,以及各字符作为提取终点的预测结束概率,并在确定目标起始字符和目标结束字符后,提取待识别文本信息中的有效信息,实现了对文本中有效信息的准确提取,避免了当
待识别的文本信息包含无效信息时,对文本信息进行的全文删除操作,同时对于未知领域或无匹配模板的文本信息,同样具备了文本提取能力,扩大了文本提取技术的应用范围,提高了有效信息的提取精度。
附图说明
[0016]结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
[0017]图1是本公开的一种信息处理方法的一个实施例的流程图;
[0018]图2是本公开的一种信息处理方法的另一个实施例的流程图;
[0019]图3是本公开的一种信息处理方法的另一个实施例的流程图;
[0020]图4是本公开的一种信息处理装置的一个实施例的结构框图;
[0021]图5是适于用来实现本公开实施例的一种电子设备的结构框图。
具体实施方式
[0022]下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
[0023]应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
[0024]本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
[0025]需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0026]需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
[0027]本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
[0028]实施例一
[0029]图1是本公开实施例一提供的一种信息处理方法的流程图,本实施例可适用于提取文本信息中的有效信息,该方法可以由本公开实施例中的信息处理装置来执行,该装置可以通过软件和/或硬件实现,并集成在终端设备或服务器中,该方法具体包括如下步骤:
[0030]S110、获取待识别的文本信息,并获取所述文本信息中各字符作为提取起点的预测起始概率,以及各所述字符作为提取终点的预测结束概率。
[0031]待识别的文本信息来源众多,可以是通过问卷调查获取的用户问答结果,也可以
是网络用户针对某个事件发表的言论,还可以是电子书籍、期刊杂志等刊登的文本信息,在本公开实施例中,可选的,对待识别文本信息的来源不作具体限定。由于文本信息的来源众多,获取到的文本信息中可能存在无用的文本内容,例如,当获取到网络用户针对某个事件发表的言论时,由于网站在信息展示时的固定表述格式,或用户个人的说话习惯,通常会在答复内容中加入一些问候性的客套表述,因此,需要从待识别的文本信息中,提取需要的有效内容;例如,待识别的文本信息为“您好,这种现象产生的原因是烟圈刚开始时聚集到洞口周围,形成了漩涡,而旋转运动使得其不易与空气摩擦,从而保持烟圈的稳定!希望我的回答对你有帮助!”,显然其中存在问候性的客套表述,有效信息应为“这种现象产生的原因是烟圈刚开始时聚集到洞口周围,形成了漩涡,而旋转运动使得其不易与空气摩擦,从而保持烟圈的稳定!”。
[0032]获取到待识别的文本信息后,可以根据数据库中存储的各有效信息的起始字符和结束字符,来预测待识别文本信息中各字符作为提取起点的起始概率,以及作为提取终点的结束概率;例如,统计数据库中所有有效信息的起始字符,并计算出各起始字符的出现概率,并将该概率赋值给待识别文本信息中的相同字符,待识别文本信息中的其它字符的概率为零,据此,获取到待识别文本信息中各本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:获取待识别的文本信息,并获取所述文本信息中各字符作为提取起点的预测起始概率,以及各所述字符作为提取终点的预测结束概率;根据各所述字符的预测起始概率确定目标起始字符,以及根据各所述字符的预测结束概率确定目标结束字符;根据所述目标起始字符和所述目标结束字符,提取所述文本信息中的有效信息。2.根据权利要求1所述的方法,其特征在于,所述获取所述文本信息中各字符作为提取起点的预测起始概率,以及各所述字符作为提取终点的预测结束概率,包括:通过训练完成的序列抽取模型,获取所述文本信息中各字符作为提取起点的预测起始概率,以及各所述字符作为提取终点的预测结束概率。3.根据权利要求1所述的方法,其特征在于,在获取所述文本信息中各字符作为提取起点的预测起始概率,以及各所述字符作为提取终点的预测结束概率前,还包括:获取所述文本信息为包含无效信息文本的分类概率;所述获取所述文本信息中各字符作为提取起点的预测起始概率,以及各所述字符作为提取终点的预测结束概率,包括:若所述分类概率大于等于预设分类概率阈值,则获取所述文本信息中各字符作为提取起点的预测起始概率,以及各所述字符作为提取终点的预测结束概率。4.根据权利要求3所述的方法,其特征在于,所述获取所述文本信息为包含无效信息文本的分类概率,包括:通过训练完成的语义分类模型,获取所述文本信息为包含无效信息文本的分类概率。5.根据权利要求3所述的方法,其特征在于,在获取所述文本信息为包含无效信息文本的分类概率后,还包括:若所述分类概率小于预设分类概率阈值,则将所述文本信息作为有效信息。6.根据权利要求4所述的方法,其特征在于,在通过训练完成的语义分类模型,获取所述文本信息为包含无效信息文本的分类概率前,还包括:获取语义样本集合,并通过所述语义样本集合对初始语义分类模型进行语义分类训练,以获取训练完成的语义分类模型;其中,所述初始语义分类模型基于神经网络构建。7.根据权利要求2所述的方法,其特征在于,在通过训练完成的序列抽取模型,获取所述文本信息中各字符作为提取起点的预测起始概率,以及各所述字符作为提取终点的预测结束概率前,还包括:获取序列样本集合,并通过所述序列样本集合对初始序列抽取模型进行序列抽取训练,以获取训练完成的序列抽取模型。8.根据权利要求1-7任一项所述的方法,其特征在于,所述根据各所述字符的预测起始概率确定目标起始字符,包括:获取各所述预测起始概率中数值最高的第一预测起始概率,并判断所述第一预测起始概率对应的第一字符是否为文字;若判断所述第一字符为文字,则将所述第一字符作为目标起始字符;或者若判断所述第一字符不为文字,则获取除所述第一预测起始概率外,剩余预测起始概率中数值最高的第二预测起始概率,并判断与所述第二预测起始概率对应的第二字符是否
为文字,直至剩余预测起始概率中,与数值最高的目标预测起始概率对应的目标字符为文字为止,并将所述目标字...

【专利技术属性】
技术研发人员:王岩柴琛林张新松李航
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1