一种地域实体的识别方法及装置制造方法及图纸

技术编号:31910261 阅读:15 留言:0更新日期:2022-01-15 12:50
本申请公开了一种地域实体的识别方法及装置,涉及人工智能领域。其中,方法具体包括:将待训练地域文本中的待训练地域实体对应的词向量和待训练地域实体中的每个字对应的字特征进行融合,以得到字向量;根据待训练地域实体对应的地域实体描述和字向量对第一预训练模型进行训练,得到地域文本实体识别模型;利用地域文本实体识别模型,识别待识别地域文本的地域实体。应用本申请能让地域文本实体识别模型找到与输入的地域实体描述最相关的地域实体,即实现在最终分类中更加倾向于与地域实体描述相关的地域实体,进而实现通过词向量、字特征和地域实体描述来提高地域文本实体识别模型的识别准确率,以此提高地域实体识别的准确度。的准确度。的准确度。

【技术实现步骤摘要】
一种地域实体的识别方法及装置


[0001]本申请涉及人工智能
,尤其涉及一种地域实体的识别方法及装置。

技术介绍

[0002]地域相关实体识别主要是从百科、新闻等文本中提取出与地域相关的特定地域实体,例如可以从杭州市的百度百科描述中抽取出杭州市交通领域的火车站、机场、地铁线路等地域实体,也可以抽取出杭州市的历史文化、自然资源、科技产业等领域的相关地域实体。从而为构建城市大脑、知识图谱、网络舆论热点检测、城市宣传等提供支持。
[0003]传统的地域相关地域实体识别多为通过人工总结地域实体名称包含的特定字或地域实体上下文蕴含的特定规律来识别出文本中的地域实体,例如:对于城市的火车站可以采用“城市名”+“站”;例如:对于城市的地铁线路可以采用“城市名”+“地铁”这样的规则进行地域实体识别。一部分采用了基于深度学习的地域实体识别方法。
[0004]然而这些方法仅仅是将深度学习中的地域实体识别模型直接搬运过来,采用 BERT等预训练模型将文本中的每个字编码为向量,再结合CRF进行序列标注对每个字进行分类,判断其是否为地域实体。因此上述现有技术存在下述缺陷:
[0005]需要人工对地域实体的规律进行总结,由于不同的地域实体所存在的规律可能难以归纳尽,因此需要不断投入人力去开发;另一方面,总结的规则较为具体时虽然能保证识别地域实体的准确性,但是这样的规则泛化能力较差,容易造成召回不足;规则较为宽泛时虽然能囊括很多种情况,但是精度较低,容易将很多非地域实体抽取出来。同时,复杂的规则也为后期的维护带来了压力。
[0006]大多采用的是主流的命名地域实体识别模型,由于基于深度学习的命名地域实体识别研究多聚焦于英文数据集,而中英文之间存在着巨大的差异,英文表达意思的基本粒度是单词且句子中每个单词之间会用空格隔开;而中文表达意思的基本粒度是词而非字,中文地域实体的边界一般也是词的边界,因此准确识别出词的边界在中文地域实体识别中至关重要。简单的使用字信息的序列标注方案忽视了中文的词汇信息,容易出现抽取的地域实体残缺或包含多余字的问题。
[0007]并没有考虑结合地域信息,因此难以区分不同地域对应的地域实体。例如,在杭州市的百度百科介绍中的句子“杭州东站位于上城区天城路,建于1992年;改扩建后的杭州东站于2013年7月1日启用,为上海铁路局下辖特等站,车站体量与上海虹桥站相当。”,地域相关地域实体识别任务希望仅抽取出与杭州市相关的火车站实体即“杭州东站”。但是对于综合全国各地数据训练的模型来说,“杭州东站”和“上海虹桥站”均是火车站类实体,因此难以在关于杭州市的描述中仅仅将“杭州东站”识别出来。针对不同地域分别进行模型训练确实可以做到让模型适用于该地域,但这样一来每识别一个城市就需要单独训练一个模型,造成了数据标注和模型训练上的巨大工作量。

技术实现思路

[0008]本申请提供了一种地域实体的识别方法及装置,实现了让地域文本实体识别模型找到与输入的地域实体描述最相关的地域实体,即实现在最终分类中更加倾向于与地域实体描述相关的地域实体,进而实现通过词向量、字特征和地域实体描述提高地域文本实体识别模型的识别准确率,以此提高地域实体识别的准确度。
[0009]一种地域实体的识别方法,其中,包括以下步骤:
[0010]将待训练地域文本中的待训练地域实体对应的词向量和待训练地域实体中的每个字对应的字特征进行融合,以得到待训练地域实体中的每个字对应的字向量;
[0011]根据待训练地域实体对应的地域实体描述和字向量对第一预训练模型进行训练,得到地域文本实体识别模型;
[0012]利用地域文本实体识别模型,识别待识别地域文本的地域实体。
[0013]优选的,识别方法,其中,得到待训练地域实体中的每个字对应的字向量之前,包括:
[0014]根据待训练地域文本的地域文本类型获取得到待训练地域文本的待训练地域实体和待训练地域实体的位置标记;
[0015]根据位置标记对待训练地域实体进行标记转换,以得到待训练地域实体的序列标注。
[0016]优选的,识别方法,其中,根据待训练地域文本的地域文本类型获取得到待训练地域文本的待训练地域实体和待训练地域实体的位置标记,具体包括以下步骤:
[0017]获取待识别地域文本,将待训练地域文本进行分类以获取得到待训练地域文本的地域文本类型;
[0018]根据地域文本类型从待识别地域文本中获取待训练地域实体的位置,并对待训练地域实体的位置进行标记,以得到每个待训练地域实体对应的标记位置。
[0019]优选的,识别方法,其中,得到待训练地域实体中的每个字对应的字向量之前,包括:
[0020]对待训练地域文本按照句子进行切分,并将切分后的短句进行拼接,以得到符合第一预训练模型的输入文本。
[0021]优选的,识别方法,其中,得到字向量,具体包括以下步骤:
[0022]采用字级别的第一预训练模型提取待训练地域文本中的待训练地域实体中的每个字对应的字特征;
[0023]采用词级别的第二预训练模型提取待训练地域文本中的待训练地域实体对应的词向量;
[0024]将词向量输入到第一预训练模型中,以将词向量和字特征进行融合后得到字向量。
[0025]优选的,识别方法,其中,将词向量和字特征进行融合后得到字向量,具体包括以下步骤:
[0026]将词向量输入到第一预训练模型中,以得到融合有词向量的第一预训练模型,并将融合有词向量的第一预训练模型记为融合模型;
[0027]融合模型对待训练地域文本构建字词对,并将字词对中的字信息和词信息融合,
以得到待训练地域实体中的每个字对应的字向量。
[0028]优选的,识别方法,其中,将词向量和字特征进行融合后得到字向量,具体包括以下步骤:
[0029]将经第二预训练模型中获取得到的词向量进行维度转换,以得到符合第一预训练模型的词向量;
[0030]获取得到待训练地域实体中的每个字对应的符合第一预训练模型的词向量集合;
[0031]采用注意力加权机制将字特征和与字特征对应的词向量集合进行融合,以计算得到字特征的词向量权重:
[0032]将每个字特征的词向量权重进行加权处理,以得到每个字的字特征对应的加权词向量;
[0033]将字特征和加权词向量相加,以得到字向量。
[0034]优选的,识别方法,其中,第一预训练模型为BERT模型。
[0035]优选的,识别方法,其中,得到地域文本实体识别模型,具体包括以下步骤:
[0036]将待训练地域实体对应的地域实体描述输入到神经网络模型中,以输出得到地域实体描述向量;
[0037]将地域实体描述向量输入到第一预训练模型中,根据地域实体描述向量和字向量对第一预训练模型进行训练,得到地域文本实体识别模型。
[0038]还包括一种地域实体的识别装置,其中,包括:
[0039]融合单元,配置用于将待训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地域实体的识别方法,其特征在于,包括以下步骤:将待训练地域文本中的待训练地域实体对应的词向量和所述待训练地域实体中的每个字对应的字特征进行融合,以得到所述待训练地域实体中的每个字对应的字向量;根据所述待训练地域实体对应的地域实体描述和所述字向量对第一预训练模型进行训练,得到地域文本实体识别模型;利用所述地域文本实体识别模型,识别待识别地域文本的地域实体。2.根据权利要求1所述的识别方法,其特征在于,所述得到所述待训练地域实体中的每个字对应的字向量之前,包括:根据所述待训练地域文本的地域文本类型获取得到所述待训练地域文本的待训练地域实体和所述待训练地域实体的位置标记;根据所述位置标记对所述待训练地域实体进行标记转换,以得到所述待训练地域实体的序列标注。3.根据权利要求2所述的识别方法,其特征在于,所述根据所述待训练地域文本的地域文本类型获取得到所述待训练地域文本的待训练地域实体和所述待训练地域实体的位置标记,具体包括以下步骤:获取待训练地域文本,将所述待训练地域文本进行分类以获取得到所述待训练地域文本的地域文本类型;根据所述地域文本类型从所述待训练地域文本中获取待训练地域实体的位置,并对所述待训练地域实体的位置进行标记,以得到每个所述待训练地域实体对应的标记位置。4.根据权利要求1所述的识别方法,其特征在于,所述得到所述待训练地域实体中的每个字对应的字向量之前,包括:对所述待训练地域文本按照句子进行切分,并将切分后的短句进行拼接,以得到符合所述第一预训练模型的输入文本。5.根据权利要求1

4中任一所述的识别方法,其特征在于,所述得到字向量,具体包括以下步骤:采用字级别的所述第一预训练模型提取所述待训练地域文本中的所述待训练地域实体中的每个字对应的字特征;采用词级别的第二预训练模型提取所述待训练地域文本中的所述待训练地域实体对应的词向量;将所述词向量输入到所述第一预训练模型中,以将所述词向量和所述字特征进行融合后得到字向量。6.根据权利要求5中所述的识别方法,其特征在于,所述将所述词向量和所述...

【专利技术属性】
技术研发人员:胡彪
申请(专利权)人:新华智云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1