提取实体的方法、装置、设备、介质和产品制造方法及图纸

技术编号:34102658 阅读:28 留言:0更新日期:2022-07-11 23:47
本公开提供了提取实体的方法、装置、设备、介质和产品,涉及计算机技术领域,尤其涉及自然语言处理中的信息提取技术。具体实现方案为:接收待识别的文本,所述文本中包括有插入噪声字符的目标原始实体;选择与所述目标原始实体对应的形式化规则和噪声字符插入规则;根据所述形式化规则和所述噪声字符插入规则遍历所述文本,筛选用于拼接目标实体的字符,并将所述字符拼接成的字符串作为从所述文本中提取的目标实体。本公开通过噪声字符插入规则,以及根据目标实体构建的形式化规则,对文本进行遍历,将目标实体内部及上下文插入噪声字符的字符串逐步拼接为目标字符,以实现从文本中提取插入噪声字符的目标实体。本中提取插入噪声字符的目标实体。本中提取插入噪声字符的目标实体。

【技术实现步骤摘要】
提取实体的方法、装置、设备、介质和产品


[0001]本公开涉及计算机
,尤其涉及自然语言处理中的信息提取技术。

技术介绍

[0002]信息提取(information extraction,IE)技术是指从非结构化数据中抽取有价值的结构化特征或信息。其中,信息提取涉及到的非结构化数据包括文本、图片、音频和视频等。随着数字技术与移动互联网的快速发展和普及,客户端用户持续产生海量的文本,很多应用需要从海量文本中提取目标实体。

技术实现思路

[0003]本公开提供了一种用于提取实体的方法、装置、设备、介质和产品。
[0004]根据本公开的一方面,提供了一种提取实体的方法,包括:接收待识别的文本,所述文本中包括有插入噪声字符的目标原始实体;确定选择与所述目标原始实体对应的形式化规则和噪声字符插入规则;根据所述形式化规则和所述噪声字符插入规则遍历所述文本,筛选用于拼接目标实体的字符,并将所述字符拼接成的字符串作为从所述文本中提取的目标实体。
[0005]根据本公开的另一方面,提供了一种提取实体的装置,包括:确定单元,用于接收待识别的文本,所述文本中包括有插入噪声字符的目标原始实体,还用于选择与所述目标原始实体对应的形式化规则和噪声字符插入规则;第一提取单元,用于根据所述形式化规则和所述噪声字符插入规则遍历所述文本,筛选用于拼接目标实体的字符,并将所述字符拼接成的字符串作为从所述文本中提取的目标实体。
[0006]根据本公开的又一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行方法。
[0007]根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行所述的方法。
[0008]根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现所述的方法。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0011]图1是根据本公开实施例提供的提取实体的方法流程图;
[0012]图2是根据本公开实施例提供的确定形式化规则的方法流程图;
[0013]图3是根据本公开实施例提供的从文本中提取插入噪声字符的目标实体的方法流程图;
[0014]图4是根据本公开实施例提供的根据目标实体字符串长度和形式化规则进行判断的方法流程图;
[0015]图5是根据本公开实施例提供的将当前字符与形式化规则进行匹配的方法流程图;
[0016]图6是根据本公开实施例提供的更新后噪声字符变量后的处理流程图;
[0017]图7是根据本公开实施例提供的提取目标实体电话号码的流程图;
[0018]图8是根据一示例性实施例示出的一种提取实体的装置框图;
[0019]图9是用来实现本公开实施例的提取实体的方法的电子设备的框图。
具体实施方式
[0020]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0021]本公开应用于从文本中提取目标实体的场景。相关技术中,从文本中提取目标实体的方法包括两类。下述实施例对相关技术中提取目标实体的两类方法进行简要说明。
[0022]第一类为基于规则策略的模式匹配方法。该方法中通过领域专家对文本数据的观察总结,构建能够形式化描述目标实体的内部及上下文模式的正则表达式。在执行规则策略的模式匹配方法时,利用正则表达式从文本中提取目标实体。即将文本中的字符串与表征目标实体的正则表达式进行对比,若文本中存在与正则表达式匹配的字符串,则提取该字符串。将提取到的字符串作为目标实体。通过上述匹配过程可知,第一类方法适用于目标实体上下文模式多样性低、组成目标实体的字符连续完整的场景。
[0023]第二类为基于有监督学习的广义实体提取建模方法。该方法需要人工构建标注序列训练集,然后利用标注序列训练集训练模型,使模型能够识别文本中的目标实体。第二类方法属于自然语言处理(Natural Language Process,NLP)领域的命名实体识别任务(Named Entity Recognition,NER)。狭义的命名实体可以包括人名、机构名、时间、地址等。广义的命名实体指任意需要提取的文本对象。例如,提取文本中的列车号、始发站、药物名称、疾病名称等。目前,已有应用基于有监督学习的广义实体提取建模方法进行命名实体识别。但已有应用只能识别少量狭义的命名实体,且应用到实际文本信息时,能够实现的提取效果并不理想。可见,第二类方法适用于复杂文本模式的目标实体抽取,结合深度学习方法及序列标注方法通常能够获得较高的提取效果,并且对目标实体模式的固定程度要求较低。但第二类方法过度依赖大量人工标注的实体序列语料数据。
[0024]相比于第二类方法,第一类方法具有无需人工标注数据、目标实体提取执行效率高、提取的稳定性及准确率高的优势。但是第一类方法仅适用于数据多样性低、只抽取若干固定模式的目标实体场景。
[0025]综上,第一类方法和第二类方法使用场景有所不同,所带来的问题和不足也有所不同。但随着互联网的发展,客户端用户持续产生海量具有文本多样性丰富、特征隐蔽性强
的文本类数据,增加了从文本中提取目标实体的难度。例如文本为“某地到某地物流专线欢迎您(2020每天发车)186看XXX8何经理1235(微信同号)//130XXX8何0009全程直达高速”。利用上述第一类方法和第二类方法从示例文本中提取目标实体电话号码至少存在以下难点之一。
[0026]1、目标实体不连续。出于各种原因,客户端用户在组成目标实体的字符串中间随机位置插入噪声字符,导致目标实体的固定模式被破坏。
[0027]2、目标实体上下文多样性丰富。可以理解为,目标实体上下文引入大量变异词、缩略词、特殊符号等,导致目标实体的两侧识别模式被破坏。
[0028]针对上述难点,基于正则表达式及序列标注技术的目标实体识别方法都无法解决。即,相关技术中已有的目标实体提取方法无法应对目标实体中间随机位置插入随机噪声字符以及目标实体上下文识别模式被破坏的场景。在文本“某地到某地物流专线欢迎您(2020每天发车)186看XXX8何经理1235(微信同号)//130XXX8何0009全程直达高速”中,本公开所指的噪声字符为插入到实体手机号码中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种提取实体的方法,包括:接收待识别的文本,所述文本中包括有插入噪声字符的目标原始实体;选择与所述目标原始实体对应的形式化规则和噪声字符插入规则;根据所述形式化规则和所述噪声字符插入规则遍历所述文本,筛选用于拼接目标实体的字符,并将所述字符拼接成的字符串作为从所述文本中提取的目标实体。2.根据权利要求1所述的方法,其中,所述形式化规则按照下列方式构建:分析目标实体样本,确定所述目标实体样本的每个字符位置上允许出现的字符集合,以及所述每个字符位置之间的约束关系;基于每个字符位置上允许出现的字符集合,以及所述每个字符位置之间的约束关系,构建形式化规则。3.根据权利要求1所述的方法,其中,所述根据所述形式化规则和所述噪声字符插入规则遍历所述文本,筛选用于拼接目标实体的字符,并将所述字符拼接成的字符串作为从所述文本中提取的目标实体,包括:遍历所述文本中的字符,确定当前字符的类型,以及目标实体变量的目标实体字符串长度,所述目标实体变量用于存储筛选出用于拼接目标实体的字符;若所述当前字符的类型与所述目标实体的目标类型匹配,则根据所述目标实体字符串长度和所述形式化规则,将所述当前字符存储到所述目标实体变量或初始化目标变量,继续遍历下一个字符;若所述当前字符的类型与所述目标实体的目标类型不匹配,则更新用于记录噪声字符数量的噪声字符变量,并基于更新后噪声字符变量和所述实体字符串长度,初始化目标变量或将所述目标实体变量中存储的字符拼接成表征目标实体的字符串并存储到目标实体列表,所述目标变量包括目标实体变量和噪声字符变量,继续遍历下一个字符;直到遍历完所述文本中的字符,将存储在所述目标实体列表中的目标实体,作为从所述文本中提取到的目标实体。4.根据权利要求3所述的方法,其中,所述根据所述目标实体字符串长度和所述形式化规则,将所述当前字符存储到所述目标实体变量或初始化目标变量,包括:若所述目标实体字符串长度大于或等于目标实体字符串长度阈值,则初始化目标实体变量和噪声字符变量;若所述目标实体字符串长度小于目标实体字符串长度阈值,则将所述当前字符与所述形式化规则进行匹配,并基于匹配结果将所述当前字符存储到所述目标实体变量或初始化所述目标变量。5.根据权利要求4所述的方法,其中,所述将所述当前字符与所述形式化规则进行匹配,并基于匹配结果将所述当前字符存储到所述目标实体变量或初始化所述目标变量,包括:根据所述目标实体字符串长度,确定待存储的目标实体字符在目标实体中所处的目标位置;在字典数据结构中确定所述目标位置处的字符集合,所述字典数据结构基于对所述形式化规则进行解析得到;若所述字符集合中存在与所述当前字符匹配的字符,则将所述当前字符存储到所述目
标实体变量;若所述字符集合中不存在与所述当前字符匹配的字符,则初始化所述目标实体变量和噪声字符变量。6.根据权利要求3所述的方法,其中,所述基于更新后噪声字符变量和所述实体字符串长度,初始化目标变量或将所述目标实体变量中存储的字符拼接成表征目标实体的字符串并存储到目标实体列表,包括:若所述实体字符串长度等于目标实体字符串长度阈值,则将所述目标实体变量中存储的字符拼接成表征目标实体的字符串并存储到目标实体列表,初始化所述目标实体变量和噪声字符变量;若所述实体字符串长度小于目标实体字符串长度阈值,且更新后噪声字符变量大于噪声字符变量阈值,则初始化所述目标实体变量和噪声字符变量。7.根据权利要求1

6中任意一项所述的方法,其中,所述接收待识别的文本包括:获取待识别的文本;对所述文本进行预处理,并将预处理后的文本确定为待识别的文本。8.根据权利要求7所述的方法,还包括:根据预先构建的正则表达式从所述文本中提取目标实体,所述正则表达式根据所述目标实体构建。9.一种提取实体的装置,包括:确定单元,用于接收待识别的文本,所述文本中包括有插入噪声字符的目标原始实...

【专利技术属性】
技术研发人员:宋永浩熊蜀光居恒哲裴肖龙
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1