The invention discloses a real word recognition method, which comprises the following steps: collect structured data, generate a number of domain corpus through large data ETL technology of filtering the structured data and streamlined; each field data after training to generate the corresponding fields of multi entity thesaurus, verified by each of the a field of multi entity Thesaurus articles; new articles receiving input, according to the new syntax between entities in the dependency relation and grammatical dependency relation, the establishment of speech recognition model, the new article entity word initial recognition; the entity POS based on the the depth of recognition according to the type of the multi entity thesaurus has been verified on the new article entity words, add the new entity words to the multiple recognition In the entity word library, it effectively solves the problem of low efficiency and high cost in identifying the existing technical entity words, and can automatically identify the entity words and update the thesaurus.
【技术实现步骤摘要】
实体词识别方法及装置
本专利技术涉及计算机领域,尤其涉及一种实体词识别方法及装置。
技术介绍
随着科学技术和互联网的快速发展,计算机和网络技术己经深入到人们工作、生活的方方面面。利用计算机来获取需要的信息也逐渐被人们采用,例如信息检索查询、计算机辅助翻译、自动问答等等。在计算机服务器的数据库中存储有一些实体词,例如产品名称、型号、公司名称、品牌名称等等。如果用户通过客户端输入的语句中包含该数据库中的实体词,则可以直接从服务器的数据库中查找对应的结果,例如对应的翻译结果、问答结果、检索结果,然后反馈给客户端。此种方式,对于已有实体词对应的结果,服务器可以快速反馈给客户端,从而可以提高系统的响应速度。另外,此种方式可以保证反馈数据的准确性,保证数据传输的有效性,避免用户通过客户端不断的发送检索、翻译等请求,从而减少服务器传输给客户端的数据量。常见的服务器数据库中的实体词多通过人工搜集的方式获取,随着技术的不断发展,特别是在某些特殊领域,会不断产生新的实体词,采用人工搜集的方式往往无法及时对数据库中的实体词进行更新,在用户通过客户端向服务器发送检索、翻译等请求时,服务器便无法实现快速准确的响应,从而降低了响应速度。当用户无法得到准确或其期望的结果时,其往往会不断的发送新的请求,这就增加了服务器负担,同时增加了服务器的数据传输量。另外,通过人工搜集的方式来挖掘新的实体词需要耗费大量的工作量,增加人力成本。
技术实现思路
本专利技术实施例的目的是提供一种实体词识别方法及装置,能有效解决现有技术实体词识别效率低和成本高的问题。为实现上述目的,本专利技术实施例提供了一种实体 ...
【技术保护点】
一种实体词识别方法,其特征在于,包括步骤:收集结构化数据,通过大数据ETL技术对所述结构化数据进行初步过滤和精简后生成若干个领域的语料库;将每一领域的语料进行训练后生成对应领域的多元实体词库,通过大量文章对每一领域的多元实体词库进行验证;接收输入的新文章,根据所述新文章中实体词之间的句法依存关系和语法依存关系,建立词性识别模型,对所述新文章中的实体词的词性进行初步识别;基于所述实体词的词性,对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别,将新识别的所述实体词添加到所述多元实体词库中。
【技术特征摘要】
1.一种实体词识别方法,其特征在于,包括步骤:收集结构化数据,通过大数据ETL技术对所述结构化数据进行初步过滤和精简后生成若干个领域的语料库;将每一领域的语料进行训练后生成对应领域的多元实体词库,通过大量文章对每一领域的多元实体词库进行验证;接收输入的新文章,根据所述新文章中实体词之间的句法依存关系和语法依存关系,建立词性识别模型,对所述新文章中的实体词的词性进行初步识别;基于所述实体词的词性,对所述根据已验证的所述多元实体词库对所述新文章的实体词的类型进行深度识别,将新识别的所述实体词添加到所述多元实体词库中。2.如权利要求1所述的实体词识别方法,其特征在于,对所述实体词的类型的深度识别包括对人名、地名、公司和品牌的深度识别。3.如权利要求1所述的实体词识别方法,其特征在于,对所述新文章中的实体词的词性进行初步识别包括对所述实体词的动词、名词、介词或连词的初步识别。4.如权利要求1所述的实体词识别方法,其特征在于,对所述实体词的类型的深度识别前还包括:对所述实体词进行所属领域的权重的识别。5.如权利要求1所述的实体词识别方法,其特征在于,通过大量文章对每一领域的多元实体词库进行验证具体为:根据每一领域的多元实体词库,通过条件随机场对大量文章进行实体词之间的共现率训练,从而完成验证过程。6.如权利要求1所述的实体词识别方法,其特征在于,对所述根据已验证的所述多元实体词库对所...
【专利技术属性】
技术研发人员:晋彤,李永康,
申请(专利权)人:广州特道信息科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。