实体词识别方法及装置制造方法及图纸

技术编号:16819135 阅读:65 留言:0更新日期:2017-12-16 12:34
本发明专利技术公开了一种实体词识别方法,包括步骤:收集结构化数据,通过大数据ETL技术对所述结构化数据进行初步过滤和精简后生成若干个领域的语料库;将每一领域的语料进行训练后生成对应领域的多元实体词库,通过大量文章对每一领域的多元实体词库进行验证;接收输入的新文章,根据所述新文章中实体词之间的句法依存关系和语法依存关系,建立词性识别模型,对所述新文章中的实体词的词性进行初步识别;基于所述实体词的词性,对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别,将新识别的所述实体词添加到所述多元实体词库中,有效解决了现有技术实体词识别效率低和成本高的问题,能自动识别实体词并更新词库。

Method and device for recognition of solid words

The invention discloses a real word recognition method, which comprises the following steps: collect structured data, generate a number of domain corpus through large data ETL technology of filtering the structured data and streamlined; each field data after training to generate the corresponding fields of multi entity thesaurus, verified by each of the a field of multi entity Thesaurus articles; new articles receiving input, according to the new syntax between entities in the dependency relation and grammatical dependency relation, the establishment of speech recognition model, the new article entity word initial recognition; the entity POS based on the the depth of recognition according to the type of the multi entity thesaurus has been verified on the new article entity words, add the new entity words to the multiple recognition In the entity word library, it effectively solves the problem of low efficiency and high cost in identifying the existing technical entity words, and can automatically identify the entity words and update the thesaurus.

【技术实现步骤摘要】
实体词识别方法及装置
本专利技术涉及计算机领域,尤其涉及一种实体词识别方法及装置。
技术介绍
随着科学技术和互联网的快速发展,计算机和网络技术己经深入到人们工作、生活的方方面面。利用计算机来获取需要的信息也逐渐被人们采用,例如信息检索查询、计算机辅助翻译、自动问答等等。在计算机服务器的数据库中存储有一些实体词,例如产品名称、型号、公司名称、品牌名称等等。如果用户通过客户端输入的语句中包含该数据库中的实体词,则可以直接从服务器的数据库中查找对应的结果,例如对应的翻译结果、问答结果、检索结果,然后反馈给客户端。此种方式,对于已有实体词对应的结果,服务器可以快速反馈给客户端,从而可以提高系统的响应速度。另外,此种方式可以保证反馈数据的准确性,保证数据传输的有效性,避免用户通过客户端不断的发送检索、翻译等请求,从而减少服务器传输给客户端的数据量。常见的服务器数据库中的实体词多通过人工搜集的方式获取,随着技术的不断发展,特别是在某些特殊领域,会不断产生新的实体词,采用人工搜集的方式往往无法及时对数据库中的实体词进行更新,在用户通过客户端向服务器发送检索、翻译等请求时,服务器便无法实现快速准确的响应,从而降低了响应速度。当用户无法得到准确或其期望的结果时,其往往会不断的发送新的请求,这就增加了服务器负担,同时增加了服务器的数据传输量。另外,通过人工搜集的方式来挖掘新的实体词需要耗费大量的工作量,增加人力成本。
技术实现思路
本专利技术实施例的目的是提供一种实体词识别方法及装置,能有效解决现有技术实体词识别效率低和成本高的问题。为实现上述目的,本专利技术实施例提供了一种实体词识别方法,包括步骤:收集结构化数据,通过大数据ETL技术对所述结构化数据进行初步过滤和精简后生成若干个领域的语料库;将每一领域的语料进行训练后生成对应领域的多元实体词库,通过大量文章对每一领域的多元实体词库进行验证;接收输入的新文章,根据所述新文章中实体词之间的句法依存关系和语法依存关系,建立词性识别模型,对所述新文章中的实体词的词性进行初步识别;基于所述实体词的词性,对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别,将新识别的所述实体词添加到所述多元实体词库中。与现有技术相比,本专利技术公开的实体词识别方法通过收集结构化数据,通过大数据ETL技术对所述结构化数据进行初步过滤和精简后生成若干个领域的语料库,然后哦将每一领域的语料进行训练后生成对应领域的多元实体词库,通过大量文章对每一领域的多元实体词库进行验证,再接收输入的新文章,根据所述新文章中实体词之间的句法依存关系和语法依存关系,建立词性识别模型,对所述新文章中的实体词的词性进行初步识别,再基于所述实体词的词性,对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别,将新识别的所述实体词添加到所述多元实体词库中,有效解决了现有技术实体词识别效率低和成本高的问题,能自动识别实体词并更新词库。作为上述方案的改进,对所述实体词的类型的深度识别包括对人名、地名、公司和品牌的深度识别。作为上述方案的改进,对所述新文章中的实体词的词性进行初步识别包括对所述实体词的动词、名词、介词或连词的初步识别。作为上述方案的改进,对所述实体词的类型的深度识别前还包括:对所述实体词进行所属领域的权重的识别。作为上述方案的改进,通过大量文章对每一领域的多元实体词库进行验证具体为:根据每一领域的多元实体词库,通过条件随机场对大量文章进行实体词之间的共现率训练,从而完成验证过程。作为上述方案的改进,对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别还包括步骤:将进行深度识别后的实体词通过进一步识别词性和分析语义进行二次校验。本专利技术实施例还提供了一种实体词识别装置,包括:收集模块,用于收集结构化数据,对所述结构化数据进行初步过滤和精简后生成若干个领域的语料;多元实体词库生成模块,用于将每一领域的语料进行训练后生成对应领域的多元实体词库,通过大量文章对每一领域的多元实体词库进行验证;初步识别模块,用于接收输入的新文章,根据所述新文章中实体词之间的句法依存关系和语法依存关系,建立词性识别模型,对所述新文章中的实体词的词性进行初步识别;深度识别模块,用于基于所述实体词的词性,对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别,将新识别的所述实体词添加到所述多元实体词库中。与现有技术相比,本专利技术公开的实体词识别装置通过收集结构化数据,对所述结构化数据进行初步过滤和精简后生成若干个领域的语料,再通过多元实体词库生成模块将将每一领域的语料进行训练后生成对应领域的多元实体词库,通过大量文章对每一领域的多元实体词库进行验证,然后通过初步识别模块接收输入的新文章,根据所述新文章中实体词之间的句法依存关系和语法依存关系,建立词性识别模型,对所述新文章中的实体词的词性进行初步识别,最后通过深度识别模块,用于基于所述实体词的词性,对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别,将新识别的所述实体词添加到所述多元实体词库中,有效解决了现有技术实体词识别效率低和成本高的问题,能自动识别实体词并更新词库。作为上述方案的改进,所述深度识别模块对所述实体词的类型的深度识别包括对人名、地名、公司和品牌的深度识别。作为上述方案的改进,所述初步识别模块对所述新文章中的实体词的词性进行初步识别包括对所述实体词的动词、名词、介词或连词的初步识别。作为上述方案的改进,多元实体词库生成模块通过大量文章对每一领域的多元实体词库进行验证具体为:根据每一领域的多元实体词库,通过条件随机场对大量文章进行实体词之间的共现率训练,从而完成验证过程。附图说明图1是本专利技术实施例1提供的一种实体词识别方法的流程示意图。图2是本专利技术实施例2提供的一种实体词识别方法的流程示意图。图3是本专利技术实施例3提供的一种实体词识别装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参见图1,是本专利技术实施例1提供的一种实体词识别方法的流程示意图,包括步骤:S1、收集结构化数据,通过大数据ETL技术对所述结构化数据进行初步过滤和精简后生成若干个领域的语料库;S2、将每一领域的语料进行训练后生成对应领域的多元实体词库,通过大量文章对每一领域的多元实体词库进行验证;S3、接收输入的新文章,根据所述新文章中实体词之间的句法依存关系和语法依存关系,建立词性识别模型,对所述新文章中的实体词的词性进行初步识别;S4、基于所述实体词的词性,对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别,将新识别的所述实体词添加到所述多元实体词库中。其中,在步骤S4中对实体词深度识别还包括对所述实体词进行所属领域的权重的识别。具体实施时,收集结构化数据,通过大数据ETL技术对所述结构化数据进行初步过滤和精简后生成若干个领域的语料库,然后哦将每一领域的语料进行训练后生成对应领域的本文档来自技高网...
实体词识别方法及装置

【技术保护点】
一种实体词识别方法,其特征在于,包括步骤:收集结构化数据,通过大数据ETL技术对所述结构化数据进行初步过滤和精简后生成若干个领域的语料库;将每一领域的语料进行训练后生成对应领域的多元实体词库,通过大量文章对每一领域的多元实体词库进行验证;接收输入的新文章,根据所述新文章中实体词之间的句法依存关系和语法依存关系,建立词性识别模型,对所述新文章中的实体词的词性进行初步识别;基于所述实体词的词性,对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别,将新识别的所述实体词添加到所述多元实体词库中。

【技术特征摘要】
1.一种实体词识别方法,其特征在于,包括步骤:收集结构化数据,通过大数据ETL技术对所述结构化数据进行初步过滤和精简后生成若干个领域的语料库;将每一领域的语料进行训练后生成对应领域的多元实体词库,通过大量文章对每一领域的多元实体词库进行验证;接收输入的新文章,根据所述新文章中实体词之间的句法依存关系和语法依存关系,建立词性识别模型,对所述新文章中的实体词的词性进行初步识别;基于所述实体词的词性,对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别,将新识别的所述实体词添加到所述多元实体词库中。2.如权利要求1所述的实体词识别方法,其特征在于,对所述实体词的类型的深度识别包括对人名、地名、公司和品牌的深度识别。3.如权利要求1所述的实体词识别方法,其特征在于,对所述新文章中的实体词的词性进行初步识别包括对所述实体词的动词、名词、介词或连词的初步识别。4.如权利要求1所述的实体词识别方法,其特征在于,对所述实体词的类型的深度识别前还包括:对所述实体词进行所属领域的权重的识别。5.如权利要求1所述的实体词识别方法,其特征在于,通过大量文章对每一领域的多元实体词库进行验证具体为:根据每一领域的多元实体词库,通过条件随机场对大量文章进行实体词之间的共现率训练,从而完成验证过程。6.如权利要求1所述的实体词识别方法,其特征在于,对所述根据已验证的所述多元实体词库对所...

【专利技术属性】
技术研发人员:晋彤李永康
申请(专利权)人:广州特道信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1