本发明专利技术公开了一种互联网人物属性的提取方法,其首先利用搜索引擎根据制定好的由一些特定关键字组成的规则搜索采集来的信息集合S;对信息集合S中的文章中出现的人物的属性进行提取,如单位、电话、邮箱等信息;根据属性的不同采用了不同的提取策略,如果对于电话、邮箱采用了正则表达式进行匹配提取,而对于单位等属性采用了关键词结合词性的方法进行提取。并对自定义属性进行了初步的提取。本发明专利技术方法实现了对人物属性信息的自动提取。
【技术实现步骤摘要】
本专利技术属于互联网信息抽取领域,具体地说是互联网人物信息的属性提取方法。
技术介绍
随着社会信息化的迅猛发展,网络已经成为人们获取信息的重要来源。而网络信息具有海量,复杂,非结构化等特点,为网络信息的获取以及基于网络信息搜集的分析与研究工作都带来了很大困难。大量的实践也表明,在网络上对各种不同的信息载体(新闻网、博客、论坛、微博等)进行信息采集已经可以基本达到要求,但如果进一步得到结构化的信息还有一定的技术难题。为了适应市场越来越多的需求,针对信息人物属性提取生成方法也应运而生。信息人物属性的提取生成方法,可以比较准确地对一些信息进行人物属性的提取。 互联网人物信息的属性提取方法,一方面应用于舆情管理领域,使用在公安、安全、安监等政府部门,对监测内容中的信息中人物属性进行提取,对于政府部门来说,及时的确定监测内容的中的人物可帮助有关部门了解进一步的信息;另一方面也可以使用在信息分析领域,如:招聘行业。 人物属性提取是数据挖掘的一个重要领域,李红亮提出基于规则的百科人物属性抽取,该方法利用各属性值的词性信息来定位到百科自由文本中,通过统计的方法发现规则,再根据规则匹配从百科文本中获取人物属性信息。孟新萍提出了对维基百科人物属性的提取,对给定的属性,利用“人物姓名—属性—值”三元关系,通过模板匹配都属性提取。以上方法信息来源比较单一,主要是从百科网站进行提取,信息来源比较单一。本方法是利用人物名结合人物属性利用搜索引擎进行信息采集,并对信息集合利用规则进行提取。
技术实现思路
本专利技术要解决的技术问题是针对现有技术存在的不足,提供信息人物属性的提取生成方法,该方法可以对采集的互联网人物信息的内容进行属性提取。 本专利技术所要解决的技术问题是通过以下的技术方案来实现的,本专利技术是一种互联网人物信息的属性提取方法,其特点是,其步骤如下: A.根据目标人名为关键字构成的规则R,利用搜索引擎进行得到关于目标人物信息集合S;如:人物张三,得到规则R 张三+工作单位。其操作步骤如下; A1.利用目标人物人名关键词组成规则R;A2.利用规则从互联网得信息集合S;B.对信息集合S进行分词,并对分词集合进行人名优化;其操作步骤如下;B1.使用分词工具对信息集合S分词,并进行词性标注,得到集合M;B2.对分词结果集合M进行人名优化;B3.利用姓氏、职务知识库,合并分词结果中姓氏+称谓形式,并重新进行词性标注;C.对于基本属性的信息提取;其操作步骤如下;C1.对分词后的属性进行逐个提取,对于格式相对固定的电话、网站、邮箱利用正则表达式对集合S进行正则匹配;C2.若匹配到结果则成功,否则失败;C3. 对于工作单位、地址,利用地点触发词,结合词性进行提取;D.对于自定义属性的信息提取;其操作步骤如下; D1.对自定义属性进行同义词匹配;D2.如果与基本属性同义则转基本属性提取,否则转D3;D3.在信息集合M匹配自定定义属性关键词,并在其后匹配所定义属性结果的词性;至此,互联网人物信息的属性提取方法到此结束。与现有技术相比,本专利技术的互联网人物信息的属性提取方法具有以下效果:实现了对人物属性信息的自动提取;对人物属性提取效果比较明显;对自定义属性有一定的作用。 附图说明图1是本专利技术方法的一种流程框图; 图2是图1中步骤102所述为提取网站、电话属性的过程流程图;图3是图1中步骤103所述为对于工作单位、地址等属性提取流程图;图4是图1中步骤104所述的是对自定义属性提取的流程图。具体实施方式以下参照附图,进一步描述本专利技术的具体技术方案,以便于本领域的技术人员进一步地理解本专利技术,而不构成对其权利的限制。 实施例1,一种互联网人物信息的属性提取方法,其步骤如下: A.根据目标人名为关键字构成的规则R,利用搜索引擎进行得到关于目标人物信息集合S;如:人物张三,得到规则R 张三+工作单位。其操作步骤如下; A1.利用目标人物人名关键词组成规则R;A2.利用规则从互联网得信息集合S;B.对信息集合S进行分词,并对分词集合进行人名优化;其操作步骤如下;B1.使用分词工具对信息集合S分词,并进行词性标注,得到集合M;B2.对分词结果集合M进行人名优化;B3.利用姓氏、职务知识库,合并分词结果中姓氏+称谓形式,并重新进行词性标注;C.对于基本属性的信息提取;其操作步骤如下;C1.对分词后的属性进行逐个提取,对于格式相对固定的电话、网站、邮箱利用正则表达式对集合S进行正则匹配;C2.若匹配到结果则成功,否则失败;C3. 对于工作单位、地址,利用地点触发词,结合词性进行提取;D.对于自定义属性的信息提取;其操作步骤如下; D1.对自定义属性进行同义词匹配;D2.如果与基本属性同义则转基本属性提取,否则转D3;D3.在信息集合M匹配自定定义属性关键词,并在其后匹配所定义属性结果的词性;至此,互联网人物信息的属性提取方法到此结束。实施例2,参照图1-4,互联网人物信息的属性提取方法进行的操作实验,包括如下步骤: 步骤101、根据目标人名为关键字构成的规则,利用搜索引擎进行得到关于目标人物信息集合S ,并进行分词并优化(1) 如目标人物为张三,可以生成规则如张三+工作单位 等规则,利用搜索引擎进行搜索,得到信息集合S(2) 对信息集合S进行分词,进行词性标注,利用职位库结合姓氏进行人名的重新标注。步骤102 对电话、邮箱进行匹配,参照图2,包括如下步骤: 步骤201 根据信息集合S,进行正则匹配步骤202 利用电话、邮箱的正正则表达式,进行匹配步骤203、如果匹配成功则成功步骤204若匹配不到,则查找电话关键字,返回整个句子。找不到电话等关键词则提取失败步骤103、对于工作单位、地址,参照图3,包括如下步骤:步骤301、根据生成的集合S,查找触发词;步骤302、如果找不到触发词,则失败,否则在其后查找地点词步骤303、若匹配不到地点词,则失败,否则在其后10个字符内查找地址结束词,如果找到,则截取地点词地址结束词为地址结果。否则返回地点词步骤104、对于自定义属性的提取,参照图4包括如下步骤:步骤401、对自定义属性进行同义词匹配步骤402、如果在同义词典中,则进行基本属性的匹配步骤403、在信息集合M匹配自定定义属性关键词,并在其后匹配所定义属性结果的词性。本文档来自技高网...
【技术保护点】
一种互联网人物信息的属性提取方法,其特征在于,其步骤如下:A.根据目标人名为关键字构成的规则R,利用搜索引擎进行得到关于目标人物信息集合S;其操作步骤如下;A1.利用目标人物人名关键词组成规则R;A2.利用规则从互联网得信息集合S;B.对信息集合S进行分词,并对分词集合进行人名优化;其操作步骤如下;B1.使用分词工具对信息集合S分词,并进行词性标注,得到集合M;B2.对分词结果集合M进行人名优化;B3.利用姓氏、职务知识库,合并分词结果中姓氏+称谓形式,并重新进行词性标注;C.对于基本属性的信息提取;其操作步骤如下;C1.对分词后的属性进行逐个提取,对于格式相对固定的电话、网站、邮箱利用正则表达式对集合S进行正则匹配;C2.若匹配到结果则成功,否则失败;C3. 对于工作单位、地址,利用地点触发词,结合词性进行提取;D.对于自定义属性的信息提取;其操作步骤如下; D1.对自定义属性进行同义词匹配;D2.如果与基本属性同义则转基本属性提取,否则转D3;D3.在信息集合M匹配自定定义属性关键词,并在其后匹配所定义属性结果的词性;至此,互联网人物信息的属性提取方法到此结束。
【技术特征摘要】
1.一种互联网人物信息的属性提取方法,其特征在于,其步骤如下:
A.根据目标人名为关键字构成的规则R,利用搜索引擎进行得到关于目标人物信息集合S;其操作步骤如下;
A1.利用目标人物人名关键词组成规则R;
A2.利用规则从互联网得信息集合S;
B.对信息集合S进行分词,并对分词集合进行人名优化;其操作步骤如下;
B1.使用分词工具对信息集合S分词,并进行词性标注,得到集合M;
B2.对分词结果集合M进行人名优化;
B3.利用姓氏、职务知识库,合并分词结果中姓氏+称谓形式,并重新进行词性标注;
C.对于基本属...
【专利技术属性】
技术研发人员:陈宗华,陈永江,仲兆满,乔磊,姜剑,
申请(专利权)人:江苏金鸽网络科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。