一种基于规则的人物属性提取方法和系统技术方案

技术编号:32645931 阅读:13 留言:0更新日期:2022-03-12 18:27
本发明专利技术公开了一种基于规则的人物属性提取方法和系统,属于自然语言的信息提取技术领域,包括:对包含人物属性信息的段落使用中文分词器进行分词处理,得到所述段落包含的若干个人物属性词语,并标注各人物属性词语的词性;将带有词性标注的各人物属性词语使用空格进行分割,得到输入段落中所有人物属性词语与词性的集合,并保存到一维数组中;遍历一维数组中各人物属性词语的词性,将其和人物属性触发词匹配规则表进行匹配,对匹配上的人物属性词语,继续匹配所述人物属性词语前后的触发词,若匹配成功,则对所述人物属性词语进行提取,反之则不进行提取。本发明专利技术提供一种简单、有效的人物属性提取方法,降低了提取难度同时提高了提取效率。高了提取效率。高了提取效率。

【技术实现步骤摘要】
一种基于规则的人物属性提取方法和系统


[0001]本专利技术属于自然语言的信息提取
,更具体地,涉及一种基于规则的人物属性提取方法和系统。

技术介绍

[0002]随着互联网的飞速发展,各个网站获取的用户数据也呈指数级增长,如何从这些海量数据中快速、准确地分析出真正有用的人物属性信息,为用户画像、商业投资决策提供数据支撑,成为信息提取这一研究领域力图解决的问题。人物属性、关系提取是信息提取任务之一,目的是从非结构化文本中提取实体属性以及实体之间的关系。
[0003]目前,人物属性提取方法主要有两种,第一种是基于规则匹配的方法,对于开放网页文本结构不固定、数据源格式众多的特点,该方法不仅要定义大量的规则,而且匹配效率很低,不利于工程推广。第二种是一个是基于传统机器学习算法实现,然而,传统的机器学习算法,对训练数据有极强的依赖性,需要人工标注大量数据,而且只能使用浅层的特征对数据分类,致使提取性能较差。
[0004]综上,虽然现有技术能够实现对人物属性的提取,但是,依然存在匹配效率低、提取性能差问题。因此,提供一种简单、有效的人物属性提取方法成为了人物属性提取领域的当务之急。

技术实现思路

[0005]针对现有技术的缺陷,本专利技术提供了一种基于规则的人物属性提取方法和系统,解决了现有技术在人物属性提取过程中匹配效率低、提取性能差的技术问题。
[0006]为实现上述目的,本专利技术提供了一种基于规则的人物属性提取方法,包括如下步骤:
[0007](1)人物属性词语获取步骤:对包含人物属性信息的段落使用中文分词器进行分词处理,得到所述段落包含的若干个人物属性词语,并标注各人物属性词语的词性;
[0008](2)人物属性词语分割保存步骤:将带有词性标注的各人物属性词语使用空格进行分割,得到输入段落中所有人物属性词语与词性的集合,并保存到一维数组中;
[0009](3)人物属性词语匹配提取步骤:遍历一维数组中各人物属性词语的词性,将其和人物属性触发词匹配规则表中的词性进行匹配,若匹配上,则对人物属性词语前后扫描是否存在触发词,若存在触发词,则对所述人物属性词语进行提取,反之则不进行提取。
[0010]在一个可选的实施例中,所述人物属性词语获取步骤中人物属性词语的词性,具体为:
[0011]所述人物属性词语的词性为人物属性词语所属的类别。
[0012]在一个可选的实施例中,所述人物属性词语获取步骤,还包括:
[0013]使用中文分词器的分词程序对人物属性词语是否为命名实体进行识别。
[0014]在一个可选的实施例中,所述命名实体,具体为:
[0015]若干人物属性词语的词性实例化后个体的集合。
[0016]在一个可选的实施例中,所述触发词,具体为:
[0017]所述触发词为人物属性词语的词性的同义词、近义词或同类型词汇,用于对人物属性词语的词性做进一步确认。
[0018]在一个可选的实施例中,所述触发词,还包括:
[0019]独立词汇的触发词和非独立词汇的触发词,其中,独立词汇的触发词不能缩写或扩展,否则会影响语义的理解,非独立词汇的触发词可以进行缩写或扩展,不影响语义的理解。
[0020]在一个可选的实施例中,所述人物属性词语匹配提取步骤中扫描人物属性词语前后是否存在触发词,具体为:
[0021]对于非独立词汇的触发词,扫描到所述触发词缩写或扩展后的词汇均认为扫描成功;
[0022]若人物属性词语前后的触发词匹配过程中扫描到拼接规则,若拼接规则在人物属性词语后,则需要向前扫描并匹配触发词;若拼接规则在人物属性词语前,则需要向后扫描并匹配触发词;
[0023]对于若干人物属性词语的词性,其触发词为命名实体,扫描触发词时需要在中文分词器的分词程序中查找是否存在所述命名实体。
[0024]在一个可选的实施例中,所述拼接规则,具体为:
[0025]对若干人物属性词语的词性,拼接规则为断句标点;
[0026]对于若干人物属性词语的词性,拼接规则为分句标点;
[0027]对于若干人物属性词语的词性,拼接规则为断句标点或动词或所述词性的后缀词。
[0028]在一个可选的实施例中,所述拼接规则为断句标点和拼接规则为分句标点,具体为:
[0029]所述断句标点包括:中文或英文形式的逗号、句号、分号、感叹号和问号;
[0030]所述分句标点为除去逗号外的所有断句标点。
[0031]本专利技术的另一目的在于提供一种基于规则的人物属性提取系统,包括如下单元:
[0032](1)人物属性词语获取单元:对包含人物属性信息的段落使用中文分词器进行分词处理,得到所述段落包含的若干个人物属性词语,并标注各人物属性词语的词性;
[0033](2)人物属性词语分割保存单元:将带有词性标注的各人物属性词语使用空格进行分割,得到输入段落中所有人物属性词语与词性的集合,并保存到一维数组中;
[0034](3)人物属性词语匹配提取单元:遍历一维数组中各人物属性词语的词性,将其和人物属性触发词匹配规则表中的词性进行匹配,若匹配上,则对人物属性词语前后扫描是否存在触发词,若存在触发词,则对所述人物属性词语进行提取,反之则不进行提取。
[0035]总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,具有以下有益效果:
[0036]本专利技术提供了一种基于规则的人物属性提取方法和系统,通过中文分词器将段落分解为若干个人物属性词语,并将所述若干个人物属性词语进行命名实体识别和词性标注,将得到的人物属性词语的词性和给定的人物属性触发词匹配规则表进行匹配,若匹配
到所述词性,则扫描人物属性词语前后是否存在触发词,所述触发词是用于对所述人物属性词语的词性进一步确认,避免词性匹配成功,却不是人物属性的情况存在。
[0037]另一方面,由于汉语中存在较多的同义词、近义词或同类型的词语,本专利技术将所述同义词、近义词或同类型的词语均作为触发词,提供匹配的成功率,同时,将触发词划分为独立词汇的触发词和非独立词汇的触发词,独立词汇的触发词在语义上是独立的,不能进行缩写或扩展,非独立词汇的触发词时缩写或扩展,不影响语义的理解,对于非独立词汇的触发词,本专利技术在扫描触发词的过程中,对于所述触发词的缩写或扩展后的触发词形式也考虑进来,大大增加了扫描的成功率。
附图说明
[0038]图1为本专利技术的基于规则的人物属性提取方法的流程图。
具体实施方式
[0039]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0040]本专利技术的基于规则的人物属性提取方法,如图1所示,包括如下步骤:
[0041](1)人物属性词语获取步骤:对包含人物属性信息的段落使用中文分词器进行分词处理,得到所述段落包含的若干个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于规则的人物属性提取方法和系统,其特征在于,包括如下步骤:(1)人物属性词语获取步骤:对包含人物属性信息的段落使用中文分词器进行分词处理,得到所述段落包含的若干个人物属性词语,并标注各人物属性词语的词性;(2)人物属性词语分割保存步骤:将带有词性标注的各人物属性词语使用空格进行分割,得到输入段落中所有人物属性词语与词性的集合,并保存到一维数组中;(3)人物属性词语匹配提取步骤:遍历一维数组中各人物属性词语的词性,将其和人物属性触发词匹配规则表中的词性进行匹配,若匹配上,则对人物属性词语前后扫描是否存在触发词,若存在触发词,则对所述人物属性词语进行提取,反之则不进行提取。2.如权利要求1所述的基于规则的人物属性提取方法,其特征在于,所述人物属性词语获取步骤中人物属性词语的词性,具体为:所述人物属性词语的词性为人物属性词语所属的类别。3.如权利要求1所述的基于规则的人物属性提取方法,其特征在于,所述人物属性词语获取步骤,还包括:使用中文分词器的分词程序对人物属性词语是否为命名实体进行识别。4.如权利要求3所述的基于规则的人物属性提取方法,其特征在于,所述命名实体,具体为:若干人物属性词语的词性实例化后个体的集合。5.如权利要求1所述的基于规则的人物属性提取方法,其特征在于,所述触发词,具体为:所述触发词为人物属性词语的词性的同义词、近义词或同类型词汇,用于对人物属性词语的词性做进一步确认。6.如权利要求1所述的基于规则的人物属性提取方法,其特征在于,所述触发词,还包括:独立词汇的触发词和非独立词汇的触发词,其中,独立词汇的触发词不能缩写或扩展,否则会影响语义的理解,非独立词汇的触发词可以进行缩写或扩展,不影响语义的理解。7.如权利要求1所述的基于规则的人物属性提取方法,其特征在...

【专利技术属性】
技术研发人员:王善和张勇刘如梦
申请(专利权)人:海南港航控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1