【技术实现步骤摘要】
提取实体的方法、装置、设备、介质和产品
[0001]本公开涉及计算机
,尤其涉及自然语言处理中的信息提取技术。
技术介绍
[0002]信息提取(information extraction,IE)技术是指从非结构化数据中抽取有价值的结构化特征或信息。其中,信息提取涉及到的非结构化数据包括文本、图片、音频和视频等。随着数字技术与移动互联网的快速发展和普及,客户端用户持续产生海量的文本,很多应用需要从海量文本中提取目标实体。
技术实现思路
[0003]本公开提供了一种用于提取实体的方法、装置、设备、介质和产品。
[0004]根据本公开的一方面,提供了一种提取实体的方法,包括:接收待识别的文本,所述文本中包括有插入噪声字符的目标原始实体;确定选择与所述目标原始实体对应的形式化规则和噪声字符插入规则;根据所述形式化规则和所述噪声字符插入规则遍历所述文本,筛选用于拼接目标实体的字符,并将所述字符拼接成的字符串作为从所述文本中提取的目标实体。
[0005]根据本公开的另一方面,提供了一种提取实体的装置,包括:确定单元,用于接收待识别的文本,所述文本中包括有插入噪声字符的目标原始实体,还用于选择与所述目标原始实体对应的形式化规则和噪声字符插入规则;第一提取单元,用于根据所述形式化规则和所述噪声字符插入规则遍历所述文本,筛选用于拼接目标实体的字符,并将所述字符拼接成的字符串作为从所述文本中提取的目标实体。
[0006]根据本公开的又一方面,提供了一种电子设备,包括:至少一个处理器;以及与 ...
【技术保护点】
【技术特征摘要】
1.一种提取实体的方法,包括:接收待识别的文本,所述文本中包括有插入噪声字符的目标原始实体;选择与所述目标原始实体对应的形式化规则和噪声字符插入规则;根据所述形式化规则和所述噪声字符插入规则遍历所述文本,筛选用于拼接目标实体的字符,并将所述字符拼接成的字符串作为从所述文本中提取的目标实体。2.根据权利要求1所述的方法,其中,所述形式化规则按照下列方式构建:分析目标实体样本,确定所述目标实体样本的每个字符位置上允许出现的字符集合,以及所述每个字符位置之间的约束关系;基于每个字符位置上允许出现的字符集合,以及所述每个字符位置之间的约束关系,构建形式化规则。3.根据权利要求1所述的方法,其中,所述根据所述形式化规则和所述噪声字符插入规则遍历所述文本,筛选用于拼接目标实体的字符,并将所述字符拼接成的字符串作为从所述文本中提取的目标实体,包括:遍历所述文本中的字符,确定当前字符的类型,以及目标实体变量的目标实体字符串长度,所述目标实体变量用于存储筛选出用于拼接目标实体的字符;若所述当前字符的类型与所述目标实体的目标类型匹配,则根据所述目标实体字符串长度和所述形式化规则,将所述当前字符存储到所述目标实体变量或初始化目标变量,继续遍历下一个字符;若所述当前字符的类型与所述目标实体的目标类型不匹配,则更新用于记录噪声字符数量的噪声字符变量,并基于更新后噪声字符变量和所述实体字符串长度,初始化目标变量或将所述目标实体变量中存储的字符拼接成表征目标实体的字符串并存储到目标实体列表,所述目标变量包括目标实体变量和噪声字符变量,继续遍历下一个字符;直到遍历完所述文本中的字符,将存储在所述目标实体列表中的目标实体,作为从所述文本中提取到的目标实体。4.根据权利要求3所述的方法,其中,所述根据所述目标实体字符串长度和所述形式化规则,将所述当前字符存储到所述目标实体变量或初始化目标变量,包括:若所述目标实体字符串长度大于或等于目标实体字符串长度阈值,则初始化目标实体变量和噪声字符变量;若所述目标实体字符串长度小于目标实体字符串长度阈值,则将所述当前字符与所述形式化规则进行匹配,并基于匹配结果将所述当前字符存储到所述目标实体变量或初始化所述目标变量。5.根据权利要求4所述的方法,其中,所述将所述当前字符与所述形式化规则进行匹配,并基于匹配结果将所述当前字符存储到所述目标实体变量或初始化所述目标变量,包括:根据所述目标实体字符串长度,确定待存储的目标实体字符在目标实体中所处的目标位置;在字典数据结构中确定所述目标位置处的字符集合,所述字典数据结构基于对所述形式化规则进行解析得到;若所述字符集合中存在与所述当前字符匹配的字符,则将所述当前字符存储到所述目
标实体变量;若所述字符集合中不存在与所述当前字符匹配的字符,则初始化所述目标实体变量和噪声字符变量。6.根据权利要求3所述的方法,其中,所述基于更新后噪声字符变量和所述实体字符串长度,初始化目标变量或将所述目标实体变量中存储的字符拼接成表征目标实体的字符串并存储到目标实体列表,包括:若所述实体字符串长度等于目标实体字符串长度阈值,则将所述目标实体变量中存储的字符拼接成表征目标实体的字符串并存储到目标实体列表,初始化所述目标实体变量和噪声字符变量;若所述实体字符串长度小于目标实体字符串长度阈值,且更新后噪声字符变量大于噪声字符变量阈值,则初始化所述目标实体变量和噪声字符变量。7.根据权利要求1
‑
6中任意一项所述的方法,其中,所述接收待识别的文本包括:获取待识别的文本;对所述文本进行预处理,并将预处理后的文本确定为待识别的文本。8.根据权利要求7所述的方法,还包括:根据预先构建的正则表达式从所述文本中提取目标实体,所述正则表达式根据所述目标实体构建。9.一种提取实体的装置,包括:确定单元,用于接收待识别的文本,所述文本中包括有插入噪声字符的目标原始实...
【专利技术属性】
技术研发人员:宋永浩,熊蜀光,居恒哲,裴肖龙,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。