本申请涉及一种有意义串的识别方法和装置,该方法包括:抽取步骤,从语料中抽取出有效候选串;统计步骤,对各有效候选串在原始语料中相邻的分隔串的分布进行统计,所述分隔串为预定义的字符或字符组合;判断步骤,根据各有效候选串在语料中相邻的分隔串的分布统计结果,从各有效候选串中确定有意义串。本申请有意义串的识别方法和装置可以提供有意义串提取的准确率。
【技术实现步骤摘要】
有意义串的识别方法和装置
本申请涉及文本信息处理
,尤其是一种有意义串的识别方法和装置。
技术介绍
近年来,随着互联网的逐渐流行,各种电子资源文本规模日渐扩大,文本中包含的信息越来越多,为了从大量的资料中检索和挖掘有价值的信息,研究界和企业界大力开发各种文本处理和数据挖掘技术。各种文本处理和数据挖掘的方法往往是基于词语,因此自动发现新词是进行文本处理和数据挖掘的重要部分。所谓新词发现,是指从文本中以自动或半自动的方式获得没有在词库中登录过的词汇。目前新词发现的研究方法主要包括如下两种:1)基于监督的新词发现方法,该方法适合处理低频和较短的字符串组成的新词。这种方法一般基于训练语料,采用各种统计模型进行识别。基于监督的新词发现方法的缺点在于容易受到训练语料和分词系统的影响,导致系统准确率不高或者获得的新词存在种种限制。2)基于非监督的新词发现方法,该方法适合处理高频和较长的字符串组成的新词。这种方法一般不需要训练语料进行统计分析,直接从字或词出发计算字符串或词串的成词概率。基于非监督的新词发现的缺点在于计算复杂性太高,新词发现的准确率不高。对基于无监督的新词发现方法而言,需要把垃圾串(即垃圾字符串或称无意义串)和词语串(词语字符串或称有意义串)区分开来。词语串或称有意义串,一般指有特定语义,可独立使用的语言单位。垃圾串并不是新词,词语串可以是新词。所谓新词发现,就是把垃圾串和词语串区分开,仅保留词语串即可。由于二者并没有明显的外在形式特征,因此该问题并不容易处理。学术界现有的区分无意义串与有意义串的方法如下:(1)基于规则的垃圾串过滤。通过对文本中词语构成特点的分析,总结得到大量构词法知识,包括过滤规则、构词规则、特殊构词规则等。通过语言学规则来限定和约束字与字的组合从而发现新词。基于规则的方法对于过滤明显的垃圾串非常有用,该方法能区分出绝大多数词语串,但是也会保留大量垃圾串,过滤精度比较低。(2)基于字符串组合概率来过滤垃圾串。通过分词系统切分文本,通过统计单字与其它字符串的成词概率来保留词语串或过滤垃圾串。字与字或字与字符串之间的成词概率通过大规模语料库可以估计得到,成词概率超过预设阈值的字符串可以作为词语串或者垃圾串。相对于规则方法而言,统计方法能够从成词概率上估计字符串的概率大小,该方法在准确率上明显优于规则方法,但仍然保留了大量垃圾串。(3)基于n元语法的新词发现。通过统计字与字的N元搭配来发现新词,例如二元、三元、四元等等,并对超出一定出现阈值的N元字符串进行语言学规则过滤,符合规则的字符串判断为新词。该方法的缺陷在于,新词的长度并不确定,因此必须统计大量字符串的N元搭配,而这种统计方法往往会占用大量资源。如果仅统计长度有限的新词,则较长的新词必定会遗漏。另外,基于规则的过滤方法的效果并不太好。(4)基于多种特征量的背景比对。通过比较候选串的多种特征量以及和背景文本之间的概率差异来判断新词的概率,这些特征量包括上下文熵、似然比等等。背景文本往往是与测试文本相似的文本,通过比较二者之间的差异来判断测试文本中的新词。该方法的缺陷在于计算复杂性较高,而且背景文本的确定也比较困难,实用性并不好。
技术实现思路
本申请要解决的技术问题是提供一种有意义串的识别方法和装置,以解决有意义串提取准确率低的问题。为解决上述技术问题,本申请提供了一种有意义串的识别方法,该方法包括:抽取步骤,从语料中抽取出有效候选串;统计步骤,对各有效候选串在原始语料中相邻的分隔串的分布进行统计,所述分隔串为预定义的字符或字符组合;判断步骤,根据各有效候选串在语料中相邻的分隔串的分布统计结果,从各有效候选串中确定有意义串。为解决上述技术问题,本申请提供了还一种有意义串的识别装置,该装置包括:抽取单元,用于从语料中抽取出有效候选串;统计单元,用于对各有效候选串在原始语料中相邻的分隔串的分布进行统计,所述分隔串为预定义的字符或字符组合;判断单元,根据对各有效候选串在语料中相邻的分隔串的分布统计结果,从各有效候选串中确定有意义串。本申请方法和装置,利用候选串左右邻出现的分隔符的数量进行统计判断,提高了有意义串被正确识别的概率。附图说明图1为本申请有意义串的识别方法实施例的示意图;图2为本申请有意义串的识别装置实施例1的模块结构示意图;图3为本申请有意义串的识别装置实施例2的模块结构示意图。图4为本申请有意义串的识别装置实施例3的模块结构示意图。具体实施方式下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例中的特征可以相互组合。本申请有意义串的识别方法如图1所示,该方法包括:步骤101:抽取步骤,从语料中抽取出有效候选串;本文所说的语料可以是原始语料也可以是加工后的语料,有效候选串指本身不是分隔串,且其中不包括分隔串的候选串。可选地,所述抽取步骤包括:分隔子步骤,利用分隔串将原始语料划分为若干个片段;抽取子步骤,从各片段中分别抽取出有效候选串。在语料中,总是会有各种各样的用来将语义分隔的字符串,如果一个文本串是一个有意义的短语的话,它总是有一定的概率在文本串的左侧和/或右侧被分隔串紧邻。基于此,本申请中将用于进行语义分隔的字符串定义为分隔串,为预定义的字符或字符组合,其包括以下至少一种:标点符号、装饰性字符、数字、字母或预设的正则表达式或预先指定的特定字串。所述正则表达式,也即字串模式,是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符及这些特定字符的组合,组成一个“规则字符串”,符合该正则表达式的字符串均为分隔串。设定分隔串为正则表达式的描述,会使得有意义串的匹配动作更加强大。所述特定字串可以包括商品信息中的品牌词、地理位置词、产品类型词或特定的助词(比如“的”、“地”等)。利用前述抽取方法获得的某些候选串可能与设置的分隔串相同,但并不影响最终的有意义串的判断结果。另一种实现方法中,抽取步骤可通过以下两个子步骤实现:从语料中抽取候选串;滤除本身为分隔串或包含分隔串的候选串得到有效候选串。可选地,本申请抽取分隔串的方法包括但不限于:分词算法或n-gram切分。分词算法:利用分词算法对原始语料或片段进行分词,将分词结果作为候选串;n-gram(n元切分)切分:对原始语料或片段做n-gram切分,切分结果作为候选串。分词算法的一种具体实施方式如下:先用语句分隔标记(比如句号、感叹号、问号等)分隔出每个句子,读取一个句子,得到这个句子多个可能的候选串,如果候选串内部存在分隔符,则过滤掉该候选串,继续读取下一个句子,并执行上述处理,直到处理完所有的句子。n-gram切分算法的一种具体实施方式如下:读取参数N1与N2,其中N1为最小切分字数,N2为最大切分字数,根据语句分隔标记(比如句号、感叹号、问号等)分隔出每个句子,再从每个句子中抽取出字数为n的各个候选串,其中n从N1到N2遍历取值。分隔串可以是预先设置的,包括如下表1中的字符。表1编号字符1,2。3!4《5》6;7、此外,分隔串也可以包括设定的正则表达式,例如表2所示的字符。表2编号字符1∧2$3\.{3}其中,“∧”与“$”在正则表达式中分别代表文本的开始与结束。“\.{3}”是正则表达式,用来匹配省略号。例如,原始语料本文档来自技高网...
【技术保护点】
一种有意义串的识别方法,其特征在于,该方法包括:抽取步骤,从语料中抽取出有效候选串;统计步骤,对各有效候选串在原始语料中相邻的分隔串的分布进行统计,所述分隔串为预定义的字符或字符组合;判断步骤,根据各有效候选串在语料中相邻的分隔串的分布统计结果,从各有效候选串中确定有意义串。
【技术特征摘要】
1.一种有意义串的识别方法,其特征在于,该方法包括:抽取步骤,从语料中抽取出有效候选串;统计步骤,对各有效候选串在原始语料中相邻的分隔串的分布进行统计,所述分隔串为预定义的字符或字符组合;判断步骤,根据各有效候选串在语料中相邻的分隔串的分布统计结果,从各有效候选串中确定有意义串。2.如权利要求1所述的方法,其特征在于,所述抽取步骤包括:分隔子步骤,利用分隔串将原始语料划分为若干个片段;抽取子步骤,从各片段中分别抽取出有效候选串。3.如权利要求1所述的方法,其特征在于,所述抽取步骤包括:从语料中抽取候选串;滤除本身为分隔串或包含分隔串的候选串得到有效候选串。4.如权利要求1所述的方法,其特征在于:所述分隔串包括以下至少一种:标点符号、装饰性字符、数字、字母或字串模式、预设的正则表达式或预先指定的特定字串,所述特定字串包括品牌词、地理位置词、产品类型词或特定的助词。5.如权利要求1所述的方法,其特征在于:所述判断步骤中,若有效候选串在语料中相邻的分隔串的分布统计结果超过预设值,则判断该有效候选串为有意义串。6.如权利要求1所述的方法,其特征在于:不同分隔串具有相同或不同的分隔权重,一个有效候选串在语料中相邻的分隔串的分布统计结果指对该有效候选串的所有实例相邻的分隔串求加权和。7.如权利要求1所述的方法,其特征在于:一个有效候选串在语料中相邻的分隔串的分布统计结果指该有效候选串的所有实例的相邻的分隔串的总数。8.如权利要求1所述的方法,其特征在于:所述抽取步骤利用分词算法或n元(n-gram)切分算法。9.如权利要求1所述的方法,其特征在于:所述有效候选串在语料中相邻的分隔串的分布统计结果包括以下至少一类:左邻分隔串得分;右邻分隔串得分;或相邻分隔串得分,其中左邻分隔串得分根据所述有效候选串左侧相邻的分隔串情况统计,右邻分隔串得分根据所述有效候选串的右侧相邻的分隔串情况统计,相邻分隔串得分根据所述有效候选串的两侧的分隔串情况统计。10.一种有意义串的识别装置,其...
【专利技术属性】
技术研发人员:刘健,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。