当前位置: 首页 > 专利查询>清华大学专利>正文

专业百科命名实体识别方法、系统及电子设备技术方案

技术编号:29134072 阅读:79 留言:0更新日期:2021-07-02 22:29
本发明专利技术涉及一种人工智能,揭露一种专业百科命名实体识别方法,包括:通过文档嵌入的方式对标准化词表中的专业词汇进行向量化表示,以形成种子词集合;将所述种子词集合中的各个实体类别的向量求平均,以获取所述实体类别的向量化表示,作为所述种子词集合中的实体类别的标签向量;根据目标文档中候选专业实体的标签向量和所述种子集合中的实体类别的标签向量,通过余弦相似度对比确定所述候选专业实体所属的类别。利用本发明专利技术,能够克服现有的监督学习实体识别方法中由于标注中专业语料的缺失以及人工标注文本所需的极高人力成本的缺陷,有效提高百科类文本信息抽取和实体识别的效率。

【技术实现步骤摘要】
专业百科命名实体识别方法、系统及电子设备
本专利技术涉及人工智能
,尤其涉及一种专业百科命名实体识别方法、系统及电子设备。
技术介绍
知识库在提高人工智能算法的性能中充当着重要角色,而知识库的构建技术则是衡量知识库性能不可或缺的考量指标。知识库的构建基本由信息抽取任务转化而来,即从非结构化及半结构化文本数据中抽取信息而后转化为知识并存入数据库。信息抽取是自然语言理解中的重要一环,而命名实体识别则是任务抽取中的一项基本任务。命名实体识别是指在目标文本中识别出特定领域具有特定含义的词语或短语。在专业领域譬如医学领域中通常可包括疾病、检查、症状、药物、愈后、解剖学、流行病学、手术治疗、其他治疗等在该领域具有特定含义的类别。命名实体识别意在抽取出文本中相关词语和短语,以便进一步的关系抽取并最终形成知识网络体系融入知识图谱。作为医学类描述性文本,医学百科自然成为了一个良好的医学信息抽取的切入点。医学百科多以自然语言的形式出现,并多以通俗的语句对知识进行表述,所以此类文本当中所包含的信息密度相对较低,并且从这种非结构化数据中提取信息是非常困难的。此外,低信息量的文本标注相对于信息量高的病例文本需要耗费更多人力进行标注,造成投入产出不成正比。基于此,亟需一种能够解决现有的百科类文本的信息抽取方式效率低的问题的技术。
技术实现思路
本专利技术提供一种专业百科命名实体识别方法、系统及电子设备,其主要目的在于解决现有技术中百科类文本的信息抽取方式效率低的问题。为实现上述目的,本专利技术提供的一种专业百科命名实体识别方法,应用于电子装置,包括:通过文档嵌入的方式对标准化词表中的专业词汇进行向量化表示,以形成种子词集合;将所述种子词集合中的各个实体类别的向量求平均,以获取所述实体类别的向量化表示,作为所述种子词集合中的实体类别的标签向量;根据目标文档中候选专业实体的标签向量和所述种子集合中的实体类别的标签向量,通过余弦相似度对比确定所述候选专业实体所属的类别。为了解决上述问题,本专利技术还提供一种专业百科命名实体识别系统,所述系统包括:种子词集合获取单元,用于通过文档嵌入的方式对标准化词表中的专业词汇进行向量化表示,以形成种子词集合;种子词集合向量化单元,用于将所述种子词集合中的各个实体类别的向量求平均,以获取所述实体类别的向量化表示,作为所述种子词集合中的实体类别的标签向量;目标实体识别单元,用于根据目标文档中候选专业实体的标签向量和所述种子集合中的实体类别的标签向量,通过余弦相似度对比确定所述候选专业实体所属的类别。为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述的专业百科命名实体识别方法中的步骤。本专利技术提供的上述专业百科命名实体识别方案,通过对目标文档的语义依存分析和专业实体筛选,确定目标文档中的候选专业实体,并通过搜索引擎确定目标文档中的专业实体的嵌入文档,以对目标文档中的专业实体进行文档嵌入,确定目标文档中的专业实体的向量化表示,最终基于对标准化词表中专业实体的向量化表示和目标文档中的专业实体的向量化表示,进行实体识别,克服了现有的监督学习实体识别方法中由于标注中专业语料的缺失以及人工标注文本所需的极高人力成本的缺陷,有效提高了百科类文本信息抽取和实体识别的效率。附图说明图1为根据本专利技术实施例的专业百科命名实体识别方法的流程示意图;图2为根据本专利技术实施例的语义依存分析的结果示意图;图3为根据本专利技术实施例的专业百科命名实体识别系统的逻辑结构框图;图4为根据本专利技术实施例的实现专业百科命名实体识别方法的电子设备的内部结构示意图;本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。由于标注中专业语料的缺失,以及人工标注文本所需的极高人力成本,导致了监督学习的方法在专业如医学类文本命名实体识别方面变得不可取。基于此,本申请提出一种非监督实体识别的方法,以用于专业文本命名实体的识别。图1示出了根据专利技术实施例的专业百科命名实体识别方法的流程,该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。如图1所示,本实施例提供的专业百科命名实体识别方法包括:S110:通过文档嵌入的方式对标准化词表中的专业词汇进行向量化表示,以形成种子词集合;S120:将所述种子词集合中的各个实体类别的向量求平均,以获取所述实体类别的向量化表示,作为所述种子词集合中的实体类别的标签向量;S130:根据目标文档中候选专业实体的标签向量和所述种子集合中的实体类别的标签向量,通过余弦相似度对比确定所述候选专业实体所属的类别。为了表述的方便,在下面的实施例表述中,以医学类的专业百科命名实体识别为例对对上述方法中的各个步骤做进一步详细的表述。在实例性的实施例中,在步骤S110中,通过文档嵌入的方式对标准化词表中的专业词汇进行向量化表示的步骤还可以包括:S111:在预设数据库(如A+医学百科、百度百科等在线搜索数据库)中在线搜索所述标准化词表中的专业词汇;S112:根据搜索结果将有结果页面返回的专业词汇与实体类别添加至种子实体列表;具体的,作为示例,可以采用SNOMED国际医学规范术语作为标准化词表。在该标准化词表的基础上,对词表中的专业词汇进行遍历,并在A+医学百科、百度百科等在线数据库中在线搜索当前专业词汇,若有结果页面返回则将该专业词汇与其对应的实体类别添加到种子实体列表,该实体类别是在标准化词表中定义的类别。S113:对于所述种子实体列表中的每个实体,从所述预设数据库中提取约定部分的描述性文字作为实体嵌入文档;该约定部分一般为所述预设数据库中对应的百科记录的简介部分,也可以是摘要部分等能够概括描述出词汇概况的部分。S114:将所述实体嵌入文档进行文档嵌入处理,以获取每个实体的向量化表示。具体的文档嵌入处理可以采用基于医学语料训练领域专属词向量进行文档嵌入的方式进行。作为示例,可以先采用结巴分词算法对原始医疗文本进行分词,然后利用Word2Vec嵌入算法计算在医学语料的基础上计算每个词的向量表示。在Word2Vec模型的训练中,将全部标准词表中包含的词语的百科条目中的描述文字结合,组成专用的医学语料并在此基础上对Word2Vec模型进行训练从而获得医学领域专用的词嵌入集合。由于Word2Vec模型的设计,单纯的使用词向量作为实体的嵌入仅融入了每个实体的上下文信息,因此仅仅将局部的语义和语法信息融入进了向量。而理想中希望的是获得全局的语义信息以及一些与每个实体的医学信息相。例如对于疾病来说,将其相对应的症状、所用本文档来自技高网...

【技术保护点】
1.一种专业百科命名实体识别方法,应用于电子装置,其特征在于,所述方法包括:/n通过文档嵌入的方式对标准化词表中的专业词汇进行向量化表示,以形成种子词集合;/n将所述种子词集合中的各个实体类别的向量求平均,以获取所述实体类别的向量化表示,作为所述种子词集合中的实体类别的标签向量;/n根据目标文档中候选专业实体的标签向量和所述种子集合中的实体类别的标签向量,通过余弦相似度对比确定所述候选专业实体所属的类别。/n

【技术特征摘要】
1.一种专业百科命名实体识别方法,应用于电子装置,其特征在于,所述方法包括:
通过文档嵌入的方式对标准化词表中的专业词汇进行向量化表示,以形成种子词集合;
将所述种子词集合中的各个实体类别的向量求平均,以获取所述实体类别的向量化表示,作为所述种子词集合中的实体类别的标签向量;
根据目标文档中候选专业实体的标签向量和所述种子集合中的实体类别的标签向量,通过余弦相似度对比确定所述候选专业实体所属的类别。


2.如权利要求1所述的专业专业命名实体识别方法,其特征在于,所述通过文档嵌入的方式对标准化词表中的专业词汇进行向量化表示的步骤包括:
在预设数据库中在线搜索所述标准化词表中的专业词汇;
根据搜索结果将有结果页面返回的专业词汇与实体类别添加至种子实体列表;
对于所述种子实体列表中的每个实体,从所述预设数据库中提取约定部分的描述性文字作为实体嵌入文档;
将所述实体嵌入文档进行文档嵌入处理,以获取每个实体的向量化表示。


3.如权利要求2所述的专业百科命名实体识别方法,其特征在于,在将所述种子词集合中的各个实体类别的向量求平均,以获取所述实体类别的向量化表示,作为所述种子词集合中的实体类别的标签向量的过程中,
假设实体Ei拥有描述性文字Ti,Ti=w1,w2,…,wn,wj代表所述描述性文字中的第j个词,1≤j≤n,并且wj拥有词向量ej,则实体Ei的向量化表示edocument,i为所述描述性文字中全部词向量的平均值。


4.如权利要求1所述的专业百科命名实体识别方法,其特征在于,所述目标文档中候选实体集合的标签向量的确定方法包括:
在所述目标文档中利用语义依存分析抽取出全部的名词短语作为候选实体集合;
以预设搜索引擎搜索的方式对所述候选实体集合进行专业实体筛选,以获取候选专业实体集合;
根据所述预设搜索引擎对所述候选专业实体集合中的实体进行再次搜索,以确定所述候选专业实体集合的嵌入文档;
根据所述嵌入文档对所述候选专业实体集合进行嵌入,以得到所述候选专业实体集合的标签向量。


5.如权利要求4所述的专业百科命名实体识别方法,其特征在于,在所述目标文档中利用语义依存分析抽取出全部的名词短语作为候选实体集合的步骤进一步包括:
采取用结巴分词算法对需要进行实体识别的所述目标文档进行分词处理;
将分词后目标文档输入hanlp语义依存分析算法,以获取所述目标文档中每个词的词性标注以及词语词间的语义依存关系标签;
根据所述目标文档中每个词的词性标注以及词语词间的语义依存关...

【专利技术属性】
技术研发人员:江瑞傅卓然闾海荣张学工王维笑
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1