一种问题标签标注方法及装置制造方法及图纸

技术编号:8533126 阅读:168 留言:0更新日期:2013-04-04 16:18
本发明专利技术公开了一种问题标签标注方法及装置,包括:对待标注问题进行分词处理,得到该待标注问题包括的各问题分词;并从该各问题分词中确定词性为预设词性的各第一待选问题分词;并基于预设词性与第一权重值的对应关系,根据各第一待选问题分词的词性,分别确定各第一待选问题分词的第一权重值;以及基于各第一待选问题分词的第一权重值,从各第一待选问题分词中选择问题分词作为问题标签,对该待标注问题进行标注。采用本发明专利技术实施例提供的方案,提高了对问题标注问题标签的及时性、准确性和全面性。

【技术实现步骤摘要】

本专利技术涉及互联网
和计算机
,尤其涉及一种问题标签标注方法及装置
技术介绍
互联网应用中的知识问答业务的应用,是指ー个用户可以在知识问答平台上提出问题,由其它用户对该问题进行答复,该用户也可以浏览知识问答平台上展现的问题,并对其进行答复,该用户也可以在知识问答平台上对问题进行搜索,以便了解其欲获知的问题的答案。为了更高效的对知识问答平台上的问题进行管理,以及为了使得用户更方便的使用知识问答平台,可以对知识问答平台上展现的问题标注问题标签,在对问题标注问题标签之后,即可以对问题进行分类,以及在对问题进行搜索时,可以基于问题标签进行捜索,以提高搜索效率和准确性。并且,知识问答平台是用户根据自身需求或兴趣提出问题,由其他用户进行回答的互动式知识问答分享平台。通过对问题标注问题标签,还可以形成基于标签的问题集和用户集,建立问题和相关用户的关联关系,提供在问题标签下的权威用户和兴趣用户,确保问题回答的专业性和及时性。现有的在知识问答平台中对问题标注问题标签,可以采用人工标注的方式,例如,用户在知识问答平台上提出问题时,对提出的问题标注问题标签,也可以由知识问答平台的后台管理人员,根据问题的内容对问题标注问题标签,其中,由于对用户的行为不可控,所以用户自主标注的问题标签可能会不准确,由后台管理人员标注问题标签的方式,需要大量的人力,且处理效率较低,当知识问答平台上存在大量的问题时,无法及时的新提出的问题进行问题标签的标注。除人工标注的方式外,还可以采用基于标签库的方式,即预先将可以作为问题标签的词语组成标签库,然后从标签库中选择与该问题比较相关的词语推荐给用户,所选择的词语可以是作为问题标签对问题进行标注的次数较多的词语,由用户从推荐词语中选择词语作为问题标签,对该问题进行标注。然而,在实际使用时,可能由于标签库中包括的词语有限,而无法获得能够准确表征该问题的词语,如果预先在标签库中设置大量词语,则会导致在获取与该问题相关的词语时的计算量较大,浪费处理资源;并且,在选择标签库中的词语推荐给用户时,对于标签库中新加入的词语,可能由于其被使用的次数较少,而一直没有被选择。总之,现有技术中对问题标注问题标签的方法,无法兼顾标注的及时性以及准确性,且存在标注的问题标签不够全面的问题。
技术实现思路
本专利技术实施例提供一种问题标签标注方法及装置,用以解决现有技术中存在的对问题标注问题标签时不够及时以及不够准确和全面的问题。本专利技术实施例提供一种问题标签标注方法,包括对待标注问题进行分词处理,得到所述待标注问题包括的各问题分词;从所述各问题分词中确定词性为预设词性的各第一待选问题分词;基于预设词性与第一权重值的对应关系,根据所述各第一待选问题分词的词性,分别确定所述各第一待选问题分词的第一权重值;基于所述各第一待选问题分词的第一权重值,从所述各第一待选问题分词中选择问题分词作为问题标签,对所述待标注问题进行标注。本专利技术实施例还提供一种问题标签标注装置,包括分词单元,用于对待标注问题进行分词处理,得到所述待标注问题包括的各问题分词;第一分词选择単元,用于从所述各问题分词中确定词性为预设词性的各第一待选问题分词;第一权重确定单元,用于基于预设词性与第一权重值的对应关系,根据所述各第一待选问题分词的词性,分别确定所述各第一待选问题分词的第一权重值;标注单元,用于基于所述各第一待选问题分词的第一权重值,从所述各第一待选问题分词中选择问题分词作为问题标签,对所述待标注问题进行标注。本专利技术有益效果包括本专利技术实施例提供的方法中,预先设置了可以作为问题标签的词语的预设词性,还预先设置了预设词性与第一权重值的对应关系,在针对待标注问题进行问题标签标注吋,对待标注问题进行分词处理,得到该待标注问题包括的各问题分词,并从各问题分词中确定词性为预设词性的各第一待选问题分词,然后基于预设词性与第一权重值的对应关系,根据各第一待选问题分词的词性,分别确定各第一待选问题分词的第一权重值,以及基于各第一待选问题分词的第一权重值,从各第一待选问题分词中选择问题分词作为问题标签,对该待标注问题进行标注。相比人工标注的方式,不再受限于人为的主观因素,可以按照统ー的问题标签选择标准确定问题标签,从而提高了准确性,相比人工标注的方式提高了处理效率,即提高了标注的及时性;并且,本方案也不再受限于标签库所包括的词语,只要是问题中出现的词语,均有可能作为问题标签,进而提高了标注的全面性。本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术的进ー步理解,并且构成说明书的一部分,与本专利技术实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中图1为本专利技术实施例提供的问题标签标注方法的流程图;图2为本专利技术实施例1提供的问题标签标注方法的流程图;图3为本专利技术实施例中采用的Trie树的结构示意图;图4为本专利技术实施例2提供的问题标签标注方法的流程图5为本专利技术实施例3提供的问题标签标注装置的结构示意图。具体实施例方式为了给出提高对问题标注问题标签的及时性、准确性和全面性的实现方案,本专利技术实施例提供了一种问题标签标注方法及装置,以下结合说明书附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本专利技术实施例提供一种问题标签标注方法,如图1所示,包括步骤101、对待标注问题进行分词处理,得到该待标注问题包括的各问题分词。步骤102、从该各问题分词中确定词性为预设词性的各第一待选问题分词。 步骤103、基于预设词性与第一权重值的对应关系,根据各第一待选问题分词的词性,分别确定各第一待选问题分词的第一权重值。步骤104、基于各第一待选问题分词的第一权重值,从各第一待选问题分词中选择问题分词作为问题标签,对该待标注问题进行标注。下面结合附图,用具体实施例对本专利技术提供的方法及装置进行详细描述。实施例1 :图2所示为本专利技术实施例1提供的问题标签标注方法的流程图,具体包括如下处理步骤步骤201、对待标注问题进行分词处理,得到该待标注问题包括的各问题分词。本步骤中,可以对待标注问题的标题进行分词处理,也可以对待标注问题的问题内容进行分词处理,所采用的分词处理的方式,可以为现有技术中的各种方式,在此不再进行详细描述。步骤202、确定各问题分词中在预设标签库中存在的各词语,作为各第二待选问题分词。本专利技术实施例中,为了进一步提高标注问题标签的准确性和全面性,除基于词性确定问题标签外,还可以基于预设标签库中的词语确定问题标签,即预先设置标签库,预设标签库中的词语为可以作为问题标签的词语。本步骤中,在确定各问题分词中在预设标签库中存在的各词语时,可以通过建立Trie树模型匹配预设标签库的方式确定,具体如下首先确定预设标签库中各词语分别对应的字符串,并基于各字符串建立与预设标签库对应的Trie树,Trie树的根节点不包括任何内容,每个子节点具有三个属性,第一个属性为表征一个字符,第二个属性为该本文档来自技高网
...

【技术保护点】
一种问题标签标注方法,其特征在于,包括:对待标注问题进行分词处理,得到所述待标注问题包括的各问题分词;从所述各问题分词中确定词性为预设词性的各第一待选问题分词;基于预设词性与第一权重值的对应关系,根据所述各第一待选问题分词的词性,分别确定所述各第一待选问题分词的第一权重值;基于所述各第一待选问题分词的第一权重值,从所述各第一待选问题分词中选择问题分词作为问题标签,对所述待标注问题进行标注。

【技术特征摘要】
1.一种问题标签标注方法,其特征在于,包括 对待标注问题进行分词处理,得到所述待标注问题包括的各问题分词; 从所述各问题分词中确定词性为预设词性的各第一待选问题分词; 基于预设词性与第一权重值的对应关系,根据所述各第一待选问题分词的词性,分别确定所述各第一待选问题分词的第一权重值; 基于所述各第一待选问题分词的第一权重值,从所述各第一待选问题分词中选择问题分词作为问题标签,对所述待标注问题进行标注。2.如权利要求1所述的方法,其特征在于,在从所述各问题分词中确定词性为预设词性的各第一待选问题分词之前,还包括 确定所述各问题分词中在预设标签库中存在的各第二待选问题分词; 从所述各问题分词中确定词性为预设词性的各第一待选问题分词,具体为 从所述各问题分词中除所述各第二待选问题分词之外的问题分词中,确定词性为预设词性的各第一待选问题分词。3.如权利要求2所述的方法,其特征在于,在确定所述各问题分词中在预设标签库中存在的各第二待选问题分词之后,还包括 根据所述各第二待选问题分词分别在历史统计的多个问题中出现的次数,分别确定所述各第二待选问题分词的第二权重值; 基于所述各第二待选问题分词的第二权重值,从所述各第二待选问题分词中选择问题分词作为问题标签,对所述待标注问题进行标注。4.如权利要求3所述的方法,其特征在于,还包括 从所述预设标签库中,确定与作为问题标签的第二待选问题分词的相似度满足预设相似度条件的词语; 将满足预设相似度条件的词语作为问题标签,对所述待标注问题进行标注。5.如权利要求4所述的方法,其特征在于,采用如下方式确定两个词语的相似度 确定所述两个词语的相似度为所述两个词语的特征向量的相似度,其中,词语的特征向量的维度为历史统计的N个问题的数量,词语的特征向量的N个分量与N个问题一一对应,针对N个问题中的每个问题,当词语在该问题中出现时,该词语的特征向量的与该问题对应的分量的分量值为1,当词语在该问题中未出现时,该词语的特征向量的与该问题对应的分量的分量值为O。6.如权利要求2-5任一所述的方法,其特征在于,还包括 将从所述各第一待选问题分词中选择的作为问题标签的第一待选问题分词添加到预设标签库中。7.如权利要求1所述的方法,其特征在于...

【专利技术属性】
技术研发人员:陈玉焓
申请(专利权)人:新浪网技术中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1