有意义串的识别方法和装置制造方法及图纸

技术编号：16460930 阅读：49 留言：0更新日期：2017-10-27 08:30

本申请涉及一种有意义串的识别方法和装置，该方法包括：抽取步骤，从语料中抽取出有效候选串；统计步骤，对各有效候选串在原始语料中相邻的分隔串的分布进行统计，所述分隔串为预定义的字符或字符组合；判断步骤，根据各有效候选串在语料中相邻的分隔串的分布统计结果，从各有效候选串中确定有意义串。本申请有意义串的识别方法和装置可以提供有意义串提取的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
有意义串的识别方法和装置
本申请涉及文本信息处理
，尤其是一种有意义串的识别方法和装置。
技术介绍
近年来，随着互联网的逐渐流行，各种电子资源文本规模日渐扩大，文本中包含的信息越来越多，为了从大量的资料中检索和挖掘有价值的信息，研究界和企业界大力开发各种文本处理和数据挖掘技术。各种文本处理和数据挖掘的方法往往是基于词语，因此自动发现新词是进行文本处理和数据挖掘的重要部分。所谓新词发现，是指从文本中以自动或半自动的方式获得没有在词库中登录过的词汇。目前新词发现的研究方法主要包括如下两种：1)基于监督的新词发现方法，该方法适合处理低频和较短的字符串组成的新词。这种方法一般基于训练语料，采用各种统计模型进行识别。基于监督的新词发现方法的缺点在于容易受到训练语料和分词系统的影响，导致系统准确率不高或者获得的新词存在种种限制。2)基于非监督的新词发现方法，该方法适合处理高频和较长的字符串组成的新词。这种方法一般不需要训练语料进行统计分析，直接从字或词出发计算字符串或词串的成词概率。基于非监督的新词发现的缺点在于计算复杂性太高，新词发现的准确率不高。对基于无监督的新词发现方法而言，需要把垃圾串(即垃圾字符串或称无意义串)和词语串(词语字符串或称有意义串)区分开来。词语串或称有意义串，一般指有特定语义，可独立使用的语言单位。垃圾串并不是新词，词语串可以是新词。所谓新词发现，就是把垃圾串和词语串区分开，仅保留词语串即可。由于二者并没有明显的外在形式特征，因此该问题并不容易处理。学术界现有的区分无意义串与有意义串的方法如下：(1)基于规则的垃圾串过滤。通过对文本中词语...
有意义串的识别方法和装置

【技术保护点】
一种有意义串的识别方法，其特征在于，该方法包括：抽取步骤，从语料中抽取出有效候选串；统计步骤，对各有效候选串在原始语料中相邻的分隔串的分布进行统计，所述分隔串为预定义的字符或字符组合；判断步骤，根据各有效候选串在语料中相邻的分隔串的分布统计结果，从各有效候选串中确定有意义串。

【技术特征摘要】
1.一种有意义串的识别方法，其特征在于，该方法包括：抽取步骤，从语料中抽取出有效候选串；统计步骤，对各有效候选串在原始语料中相邻的分隔串的分布进行统计，所述分隔串为预定义的字符或字符组合；判断步骤，根据各有效候选串在语料中相邻的分隔串的分布统计结果，从各有效候选串中确定有意义串。2.如权利要求1所述的方法，其特征在于，所述抽取步骤包括：分隔子步骤，利用分隔串将原始语料划分为若干个片段；抽取子步骤，从各片段中分别抽取出有效候选串。3.如权利要求1所述的方法，其特征在于，所述抽取步骤包括：从语料中抽取候选串；滤除本身为分隔串或包含分隔串的候选串得到有效候选串。4.如权利要求1所述的方法，其特征在于：所述分隔串包括以下至少一种：标点符号、装饰性字符、数字、字母或字串模式、预设的正则表达式或预先指定的特定字串，所述特定字串包括品牌词、地理位置词、产品类型词或特定的助词。5.如权利要求1所述的方法，其特征在于：所述判断步骤中，若有效候选串在语料中相邻的分隔串的分布统计结果超过预设值，则判断该有效候选串为有意义串。6.如权利要求1所述的方法，其特征在于：不同分隔串具有相同或不同的分隔权重，一个有效候选串在语料中相邻的分隔串的分布统计结果指对该有效候选串的所有实例相邻的分隔串求加权和。7.如权利要求1所述的方法，其特征在于：一个有效候选串在语料中相邻的分隔串的分布统计结果指该有效候选串的所有实例的相邻的分隔串的总数。8.如权利要求1所述的方法，其特征在于：所述抽取步骤利用分词算法或n元(n-gram)切分算法。9.如权利要求1所述的方法，其特征在于：所述有效候选串在语料中相邻的分隔串的分布统计结果包括以下至少一类：左邻分隔串得分；右邻分隔串得分；或相邻分隔串得分，其中左邻分隔串得分根据所述有效候选串左侧相邻的分隔串情况统计，右邻分隔串得分根据所述有效候选串的右侧相邻的分隔串情况统计，相邻分隔串得分根据所述有效候选串的两侧的分隔串情况统计。10.一种有意义串的识别装置，其...

【专利技术属性】
技术研发人员：刘健，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人