一种从文本信息中提取中文机构单位名称的方法技术

技术编号：12297598 阅读：106 留言：0更新日期：2015-11-11 08:54

本发明专利技术公开了一种从文本信息中提取中文机构单位名称的方法，包括：加载待分析的文本信息；将待分析的文本信息进行前部标注规则匹配，标记前部词的位置，并抽取出符合前部标注规则的信息；将抽取出的信息进行后界识别处理，进而提取获得备选公司名称数据；对备选公司名称数据进行前部标注规则匹配，并进行决策处理后获得备选公司名称；根据备选公司名称进行搜索验证，判断是否验证成功，若验证成功，则获得中文机构单位名称。本发明专利技术通过匹配并标记出中文机构单位名称的前部词和后界词，以及结合网络搜索验证来提取获得中文机构单位名称，运算量较少，提取速度快，而且大大提高了提取精度，可广泛应用于衡器行业中。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本信息提取挖掘领域，特别是涉及。
技术介绍
随着Internet及其技术的迅猛发展，网络上的信息呈爆炸式增长，大量的信息以电子文档的形式呈现在人们面前，人们迫切需要一些自动化的工具帮助他们在海量的信息源中迅速找到真正重要的信息，于是信息抽取研究应运而生，而命名实体识别研究又是信息抽取中的重要组成部分。命名实体识别是指识别文本中有特定意义的实体，主要包括人名、地名、机构名、日期等。其中机构名是比较重要的一类，特别是中文的机构单位名称。本申请中，机构单位泛指机关、团体或其他企事业单位，例如“深圳发展银行股份有限公司”、“深圳世纪星源股份有限公司”、“北京深华新股份有限公司”等等。目前，中文机构单位名称的识别，主要有以下难点:(I)在不同领域、场景下，命名的外延有差异；(2)数量巨大，不能枚举，难以全部收录；(3)名称变化频繁，并且没有严格的规律可以遵循；(4)表达形式多样。而现在对中文机构单位名称进行识别，主要采用的是基于统计学的算法进行识别。这种识别方法需要先人工标注大量的语料库进行训练，语料库特征规模庞大，代价比较高，且准确率不太高。
技术实现思路
为了解决上述的技术问题，本专利技术的目的是提供。本专利技术解决其技术问题所采用的技术方案是: ，包括: 51、加载待分析的文本信息； 52、将待分析的文本信息进行前部标注规则匹配，标记前部词的位置，并抽取出符合前部标注规则的信息； 53、将抽取出的信息进行后界识别处理，进而提取获得备选公司名称数据；54、对备选公司名称数据进行前部标注规则匹配，并进行决策处理后获得备选公司名称；...
一种<a href="http://www.xjishu.com/zhuanli/55/CN105045847.html" title="一种从文本信息中提取中文机构单位名称的方法原文来自X技术">从文本信息中提取中文机构单位名称的方法</a>

【技术保护点】
一种从文本信息中提取中文机构单位名称的方法，其特征在于，包括：S1、加载待分析的文本信息；S2、将待分析的文本信息进行前部标注规则匹配，标记前部词的位置，并抽取出符合前部标注规则的信息；S3、将抽取出的信息进行后界识别处理，进而提取获得备选公司名称数据；S4、对备选公司名称数据进行前部标注规则匹配，并进行决策处理后获得备选公司名称；S5、根据备选公司名称进行搜索验证，判断是否验证成功，若验证成功，则获得中文机构单位名称。

【技术特征摘要】

【专利技术属性】
技术研发人员：吴远辉，
申请(专利权)人：广州市万隆证券咨询顾问有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人