本发明专利技术公开了一种从文本信息中提取中文机构单位名称的方法,包括:加载待分析的文本信息;将待分析的文本信息进行前部标注规则匹配,标记前部词的位置,并抽取出符合前部标注规则的信息;将抽取出的信息进行后界识别处理,进而提取获得备选公司名称数据;对备选公司名称数据进行前部标注规则匹配,并进行决策处理后获得备选公司名称;根据备选公司名称进行搜索验证,判断是否验证成功,若验证成功,则获得中文机构单位名称。本发明专利技术通过匹配并标记出中文机构单位名称的前部词和后界词,以及结合网络搜索验证来提取获得中文机构单位名称,运算量较少,提取速度快,而且大大提高了提取精度,可广泛应用于衡器行业中。
【技术实现步骤摘要】
本专利技术涉及文本信息提取挖掘领域,特别是涉及。
技术介绍
随着Internet及其技术的迅猛发展,网络上的信息呈爆炸式增长,大量的信息以电子文档的形式呈现在人们面前,人们迫切需要一些自动化的工具帮助他们在海量的信息源中迅速找到真正重要的信息,于是信息抽取研究应运而生,而命名实体识别研究又是信息抽取中的重要组成部分。命名实体识别是指识别文本中有特定意义的实体,主要包括人名、地名、机构名、日期等。其中机构名是比较重要的一类,特别是中文的机构单位名称。本申请中,机构单位泛指机关、团体或其他企事业单位,例如“深圳发展银行股份有限公司”、“深圳世纪星源股份有限公司”、“北京深华新股份有限公司”等等。目前,中文机构单位名称的识别,主要有以下难点:(I)在不同领域、场景下,命名的外延有差异;(2)数量巨大,不能枚举,难以全部收录;(3)名称变化频繁,并且没有严格的规律可以遵循;(4)表达形式多样。而现在对中文机构单位名称进行识别,主要采用的是基于统计学的算法进行识别。这种识别方法需要先人工标注大量的语料库进行训练,语料库特征规模庞大,代价比较高,且准确率不太高。
技术实现思路
为了解决上述的技术问题,本专利技术的目的是提供。本专利技术解决其技术问题所采用的技术方案是: ,包括: 51、加载待分析的文本信息; 52、将待分析的文本信息进行前部标注规则匹配,标记前部词的位置,并抽取出符合前部标注规则的信息; 53、将抽取出的信息进行后界识别处理,进而提取获得备选公司名称数据;54、对备选公司名称数据进行前部标注规则匹配,并进行决策处理后获得备选公司名称; 55、根据备选公司名称进行搜索验证,判断是否验证成功,若验证成功,则获得中文机构单位名称。进一步,所述前部标注规则指基于前部词的标注规则,所述前部词包括标点符号、动词、介词、预设名词或预设特定词语。进一步,所述步骤S2,其具体为: 将待分析的文本信息与预设前部词标注词典依次进行基于前部词的前部标注规则匹配,标记前部词的位置后,根据预设字数阈值从前部词后面抽取出符合前部标注规则的信息。进一步,所述步骤S2,包括: 521、将待分析的文本信息与预设前部词标注词典进行基于标点符号的前部标注规则匹配,若判断待分析的文本信息中包含标点符号且该标点符号后紧接着地方名称,则标记该标点符号的结束位置; 522、将待分析的文本信息与预设前部词标注词典进行基于动词的前部标注规则匹配,若判断待分析的文本信息中包含动词且该动词后紧接着地方名称,则标记该动词的结束位置; 523、将待分析的文本信息与预设前部词标注词典进行基于介词的前部标注规则匹配,若判断待分析的文本信息中包含介词且该介词后紧接着地方名称,则标记该介词的结束位置; 524、将待分析的文本信息与预设前部词标注词典进行基于预设名词的前部标注规则匹配,若判断待分析的文本信息中包含预设名词且该预设名词后紧接着地方名称,则标记该预设名词的结束位置; 525、将待分析的文本信息与预设前部词标注词典进行基于预设特定词语的前部标注规则匹配,若判断待分析的文本信息中包含预设特定词语且该预设特定词语后紧接着地方名称,则标记该预设特定词语的结束位置; 526、根据预设字数阈值抽取所标记位置后面的文字信息。进一步,所述步骤S3,包括: 531、将抽取出的信息与预设后界词词典进行匹配处理,判断抽取出的信息的前η个文字中是否出现与预设后界词词典相匹配的后界词,若是,则执行步骤S32 ; 532、标记该后界词的结束位置后,提取获得前部词之后到后界词处的文字数据; 533、判断所提取的文字数据是否在同一个短语里,若是,则将该文字数据作为备选公司名称数据; 其中,η表示预设的字数阈值,η为自然数。进一步,所述步骤S4,其具体为: 对备选公司名称数据进行前部标注规则匹配,判断备选公司名称数据中是否包括前部词,若是,则截取前部词后的数据作为备选公司名称,否则将备选公司名称数据作为备选公司名称。进一步,所述步骤S5,包括: 551、将备选公司名称作为搜索关键字在网络搜索引擎中进行搜索,获取前m个搜索结果并抽取每个搜索结果的标题,m为自然数; 552、依次将该备选公司名称与每个搜索结果的标题进行匹配,判断是否匹配成功,若匹配成功,则将该备选公司名称作为提取的中文机构单位名称。本专利技术的有益效果是:本专利技术的,包括:S1、加载待分析的文本信息;S2、将待分析的文本信息进行前部标注规则匹配,标记前部词的位置,并抽取出符合前部标注规则的信息;S3、将抽取出的信息进行后界识别处理,进而提取获得备选公司名称数据;S4、对备选公司名称数据进行前部标注规则匹配,并进行决策处理后获得备选公司名称;S5、根据备选公司名称进行搜索验证,判断是否验证成功,若验证成功,则获得中文机构单位名称。本方法通过匹配并标记出中文机构单位名称的前部词和后界词后,获得备选公司名称数据,并再次进行前部标注规则匹配处理后获得备选公司名称,然后结合网络搜索验证来提取获得中文机构单位名称,运算量较少,提取速度快,而且大大提尚了提取精度。【附图说明】下面结合附图和实施例对本专利技术作进一步说明。图1是本专利技术的的流程图; 图2是本专利技术的的步骤S2的详细流程不意图; 图3是本专利技术的的步骤S3的详细流程不意图; 图4是本专利技术的的步骤S5的详细流程不意图。【具体实施方式】参照图1,本专利技术提供了,包括: 51、加载待分析的文本信息; 52、将待分析的文本信息进行前部标注规则匹配,标记前部词的位置,并抽取出符合前部标注规则的信息; 53、将抽取出的信息进行后界识别处理,进而提取获得备选公司名称数据; 54、对备选公司名称数据进行前部标注规则匹配,并进行决策处理后获得备选公司名称; 55、根据备选公司名称进行搜索验证,判断是否验证成功,若验证成功,则获得中文机构单位名称。进当前第1页1 2 3 本文档来自技高网...
【技术保护点】
一种从文本信息中提取中文机构单位名称的方法,其特征在于,包括:S1、加载待分析的文本信息;S2、将待分析的文本信息进行前部标注规则匹配,标记前部词的位置,并抽取出符合前部标注规则的信息;S3、将抽取出的信息进行后界识别处理,进而提取获得备选公司名称数据;S4、对备选公司名称数据进行前部标注规则匹配,并进行决策处理后获得备选公司名称;S5、根据备选公司名称进行搜索验证,判断是否验证成功,若验证成功,则获得中文机构单位名称。
【技术特征摘要】
【专利技术属性】
技术研发人员:吴远辉,
申请(专利权)人:广州市万隆证券咨询顾问有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。