当前位置: 首页 > 专利查询>闽江学院专利>正文

基于依存分析实现菜名实体识别的方法技术

技术编号:22076130 阅读:29 留言:0更新日期:2019-09-12 14:16
本发明专利技术提供了一种基于依存分析实现菜名实体识别的方法,包括以下步骤:S1,建立菜名语料库;S2,对所述菜名语料库中每一语料通过哈工大语言技术平台工具进行预处理,包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注;S3,读取当前行,并寻找词性是名词的词语作为候选词;S4,判断候选词与其父亲词的依存关系,判断所述依存关系是否为定中关系、主谓关系或并列关系,是,输出满足依存关系的候选词作为候选菜名并进入步骤S5,否,读取下一行,并进入步骤S3;S5,获取候选菜名的父亲词,并判断候选菜名的父亲词与root的关系是否为核心关系,是,输出满足依存关系的候选词作为实际菜名,否,读取下一行,并进入步骤S3。

Method of Entity Recognition of Vegetable Names Based on Dependency Analysis

【技术实现步骤摘要】
基于依存分析实现菜名实体识别的方法
本专利技术涉及一种基于依存分析实现菜名实体识别的方法。
技术介绍
命名实体识别是文本挖掘的关键技术。命名实体识别包括识别文本中的人名、组织机构名、地名等。相比于一般领域的命名实体,菜名实体识别有以下几个难点:(1)中文菜名种类繁多,无法列出菜名清单;(2)中文复合菜名的构成比较复杂,可以由两种或两种以上单式菜名复合也可以是由其他词与单式菜名复合而成,如香菇菜心、东坡红烧肉、水煮牛肉;(3)因为地域和餐厅不同,所以待识别的菜名可能会产生很多别名,如:黑米饭,乌米饭;(4)待识别的菜名可能会由许多单词修饰,导致实体的边界难以划分,如水煮鱼、酸菜鱼、烤鱼、红烧鱼;(5)有的餐厅为了让菜名生动有趣,在菜名中运用隐喻、借喻、用典等修辞手段,使菜名识别更加困难,如蚂蚁上树,青龙卧雪、龙凤呈祥,这给菜名识别增加难度,因此菜名是命名实体中相对较难识别的一类。
技术实现思路
本专利技术提供了一种基于依存分析实现菜名实体识别的方法,可以有效解决上述问题。本专利技术是这样实现的:一种基于依存分析实现菜名实体识别的方法,包括以下步骤:S1,建立菜名语料库;S2,对所述菜名语料库中每一语料通过哈工大语言技术平台工具进行预处理,包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注;S3,读取当前行,并寻找词性是名词的词语作为候选词;S4,判断候选词与其父亲词的依存关系,判断所述依存关系是否为定中关系、主谓关系或并列关系,是,输出满足依存关系的候选词作为候选菜名并进入步骤S5,否,读取下一行,并进入步骤S3;S5,获取候选菜名的父亲词,并判断候选菜名的父亲词与root的关系是否为核心关系,是,输出满足依存关系的候选词作为实际菜名,否,读取下一行,并进入步骤S3。作为进一步改进的,所述建立菜名语料库的步骤包括:从网络上下载客户对商家的评论文本建立菜名语料库。本专利技术的有益效果是:采用本专利技术基于依存分析实现菜名实体识别的方法实体避免了基于统计方法需要标注大量数据的不足;可以快速的、准确的识别菜名。附图说明为了更清楚地说明本专利技术实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1是本专利技术实施例提供的基于依存分析实现菜名实体识别的方法的流程图。图2是本专利技术实施例提供的基于依存分析实现菜名实体识别的方法中对语料进行预处理后的依存关系。具体实施方式为使本专利技术实施方式的目的、技术方案和优点更加清楚,下面将结合本专利技术实施方式中的附图,对本专利技术实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本专利技术一部分实施方式,而不是全部的实施方式。基于本专利技术中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本专利技术保护的范围。因此,以下对在附图中提供的本专利技术的实施方式的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施方式。基于本专利技术中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本专利技术保护的范围。参照图1所示,一种基于依存分析实现菜名实体识别的方法,包括以下步骤:S1,建立菜名语料库;S2,对所述菜名语料库中每一语料通过哈工大语言技术平台(LTP)工具进行预处理,包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注;S3,读取当前行,并寻找词性是名词的词语作为候选词;S4,判断候选词与其父亲词的依存关系,判断所述依存关系是否为定中关系、主谓关系或并列关系,是,输出满足依存关系的候选词作为候选菜名并进入步骤S5,否,读取下一行,并进入步骤S3;S5,获取候选菜名的父亲词,并判断候选菜名的父亲词与root的关系是否为核心关系,是,输出满足依存关系的候选词作为实际菜名,否,读取下一行,并进入步骤S3。在步骤S1中,所述建立菜名语料库的步骤包括:从网络上下载客户对商家的评论文本建立菜名语料库。在步骤S2中,LTP采用863词性标注集,其各个词性含义如表1所示。表1词性含义表另外,LTP采用的依存句法分析标注15种关系其含义如下:表2依存关系含义表SBV主谓关系subject-verbVOB动宾关系verb-objectIOB间宾关系indirect-objectATT定中关系attributeADV状中结构adverbialCMP动补结构complementCOO并列关系coordinatePOB介宾关系preposition-objectLAD左附加关系leftadjunctRAD右附加关系rightadjunctIS独立结构independentstructureHED核心关系head请参照图2,以语料“鱼香肉丝很好吃,我要去超市买鱼了..”为例通过哈工大语言技术平台工具进行预处理,包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注,得到如图2的依存关系。在步骤S3中,寻找词性是名词的词语,如:“鱼香”、“肉丝”、“超市”以及“鱼”这四个词作为候选词。在步骤S4中,“鱼香”与其父亲词“肉丝”的关系为定中关系。“肉丝”与其父亲词“好吃”的关系为主谓关系。“超市”与其父亲词“去”的关系为动宾关系。“鱼”与其父亲词“买”的关系也为动宾关系。选取候选词与其父亲词的依存关系是定中关系、主谓关系的“鱼香”和“肉丝”为候选菜名。在步骤S5中,进一步判断“鱼香肉丝”的父亲词为“好吃”,且“好吃”与root的关系为核心关系,故,输出“鱼香肉丝”为菜名。以上所述仅为本专利技术的优选实施方式而已,并不用于限制本专利技术,对于本领域的技术人员来说,本专利技术可以有各种更改和变化。凡在本专利技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种基于依存分析实现菜名实体识别的方法,其特征在于,包括以下步骤:S1,建立菜名语料库;S2,对所述菜名语料库中每一语料通过哈工大语言技术平台工具进行预处理,包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注;S3,读取当前行,并寻找词性是名词的词语作为候选词;S4,判断候选词与其父亲词的依存关系,判断所述依存关系是否为定中关系、主谓关系或并列关系,是,输出满足依存关系的候选词作为候选菜名并进入步骤S5,否,读取下一行,并进入步骤S3;S5,获取候选菜名的父亲词,并判断候选菜名的父亲词与root的关系是否为核心关系,是,输出满足依存关系的候选词作为实际菜名,否,读取下一行,并进入步骤S3。

【技术特征摘要】
1.一种基于依存分析实现菜名实体识别的方法,其特征在于,包括以下步骤:S1,建立菜名语料库;S2,对所述菜名语料库中每一语料通过哈工大语言技术平台工具进行预处理,包括分词、词性标注、父亲词所在位置的标注以及依存关系的标注;S3,读取当前行,并寻找词性是名词的词语作为候选词;S4,判断候选词与其父亲词的依存关系,判断所述依存关系是否为定中关系、主谓关系或并列关系,是,输出满足依...

【专利技术属性】
技术研发人员:杨晓燕庄泽彬陈子扬徐戈李佐勇
申请(专利权)人:闽江学院
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1