【技术实现步骤摘要】
专业百科命名实体识别方法、系统及电子设备
本专利技术涉及人工智能
,尤其涉及一种专业百科命名实体识别方法、系统及电子设备。
技术介绍
知识库在提高人工智能算法的性能中充当着重要角色,而知识库的构建技术则是衡量知识库性能不可或缺的考量指标。知识库的构建基本由信息抽取任务转化而来,即从非结构化及半结构化文本数据中抽取信息而后转化为知识并存入数据库。信息抽取是自然语言理解中的重要一环,而命名实体识别则是任务抽取中的一项基本任务。命名实体识别是指在目标文本中识别出特定领域具有特定含义的词语或短语。在专业领域譬如医学领域中通常可包括疾病、检查、症状、药物、愈后、解剖学、流行病学、手术治疗、其他治疗等在该领域具有特定含义的类别。命名实体识别意在抽取出文本中相关词语和短语,以便进一步的关系抽取并最终形成知识网络体系融入知识图谱。作为医学类描述性文本,医学百科自然成为了一个良好的医学信息抽取的切入点。医学百科多以自然语言的形式出现,并多以通俗的语句对知识进行表述,所以此类文本当中所包含的信息密度相对较低,并且从这种非结构化数据中提取信息是非常困难的。此外,低信息量的文本标注相对于信息量高的病例文本需要耗费更多人力进行标注,造成投入产出不成正比。基于此,亟需一种能够解决现有的百科类文本的信息抽取方式效率低的问题的技术。
技术实现思路
本专利技术提供一种专业百科命名实体识别方法、系统及电子设备,其主要目的在于解决现有技术中百科类文本的信息抽取方式效率低的问题。为实现上述目的,本专 ...
【技术保护点】
1.一种专业百科命名实体识别方法,应用于电子装置,其特征在于,所述方法包括:/n通过文档嵌入的方式对标准化词表中的专业词汇进行向量化表示,以形成种子词集合;/n将所述种子词集合中的各个实体类别的向量求平均,以获取所述实体类别的向量化表示,作为所述种子词集合中的实体类别的标签向量;/n根据目标文档中候选专业实体的标签向量和所述种子集合中的实体类别的标签向量,通过余弦相似度对比确定所述候选专业实体所属的类别。/n
【技术特征摘要】
1.一种专业百科命名实体识别方法,应用于电子装置,其特征在于,所述方法包括:
通过文档嵌入的方式对标准化词表中的专业词汇进行向量化表示,以形成种子词集合;
将所述种子词集合中的各个实体类别的向量求平均,以获取所述实体类别的向量化表示,作为所述种子词集合中的实体类别的标签向量;
根据目标文档中候选专业实体的标签向量和所述种子集合中的实体类别的标签向量,通过余弦相似度对比确定所述候选专业实体所属的类别。
2.如权利要求1所述的专业专业命名实体识别方法,其特征在于,所述通过文档嵌入的方式对标准化词表中的专业词汇进行向量化表示的步骤包括:
在预设数据库中在线搜索所述标准化词表中的专业词汇;
根据搜索结果将有结果页面返回的专业词汇与实体类别添加至种子实体列表;
对于所述种子实体列表中的每个实体,从所述预设数据库中提取约定部分的描述性文字作为实体嵌入文档;
将所述实体嵌入文档进行文档嵌入处理,以获取每个实体的向量化表示。
3.如权利要求2所述的专业百科命名实体识别方法,其特征在于,在将所述种子词集合中的各个实体类别的向量求平均,以获取所述实体类别的向量化表示,作为所述种子词集合中的实体类别的标签向量的过程中,
假设实体Ei拥有描述性文字Ti,Ti=w1,w2,…,wn,wj代表所述描述性文字中的第j个词,1≤j≤n,并且wj拥有词向量ej,则实体Ei的向量化表示edocument,i为所述描述性文字中全部词向量的平均值。
4.如权利要求1所述的专业百科命名实体识别方法,其特征在于,所述目标文档中候选实体集合的标签向量的确定方法包括:
在所述目标文档中利用语义依存分析抽取出全部的名词短语作为候选实体集合;
以预设搜索引擎搜索的方式对所述候选实体集合进行专业实体筛选,以获取候选专业实体集合;
根据所述预设搜索引擎对所述候选专业实体集合中的实体进行再次搜索,以确定所述候选专业实体集合的嵌入文档;
根据所述嵌入文档对所述候选专业实体集合进行嵌入,以得到所述候选专业实体集合的标签向量。
5.如权利要求4所述的专业百科命名实体识别方法,其特征在于,在所述目标文档中利用语义依存分析抽取出全部的名词短语作为候选实体集合的步骤进一步包括:
采取用结巴分词算法对需要进行实体识别的所述目标文档进行分词处理;
将分词后目标文档输入hanlp语义依存分析算法,以获取所述目标文档中每个词的词性标注以及词语词间的语义依存关系标签;
根据所述目标文档中每个词的词性标注以及词语词间的语义依存关...
【专利技术属性】
技术研发人员:江瑞,傅卓然,闾海荣,张学工,王维笑,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。