一种文本数据处理方法及装置制造方法及图纸

技术编号:15397405 阅读:91 留言:0更新日期:2017-05-19 15:45
本发明专利技术公开了一种文本数据处理方法及装置,应用于交互问答系统中,所述交互问答系统中存储有至少一个问题文本,每一问题文本对应有至少一个答案文本,用以提高答案文本与问题文本之间相关性衡量结果的准确性。文本数据处理方法包括:接收用户针对任一问题文本提交的新答案文本;将所述新答案文本分词,得到所述新答案文本包含的所有词语;根据所述新答案文本包含的所有词语以及第一预设算法确定所述新答案文本对应的响应变量参数,其中,所述第一预设算法根据所述交互问答系统中已存储的所述问题文本与该问题文本对应的至少一个答案文本确定,所述响应变量参数表示所述新答案文本与所述问题文本之间的匹配程度。

Text data processing method and device

The invention discloses a data processing method and a device used in interactive QA system, the interactive question answering system is stored in at least one text, text of each issue corresponding to at least one answer text, in order to improve the accuracy of the results to measure the correlation between the text and the text answer questions. Text data processing method includes: receiving user text for any new answers to the question text submitted; the new answer text segmentation, get all the new words answer text contains words; according to all the new answers to the text that contains the first preset algorithm and determine whether the new answer text corresponding to the response variable parameters. Among them, the first preset algorithm according to the interactive question and answer at least one answer text text of the problem in the storage system and the corresponding problems identified, the response variable parameter represents the matching degree between the text and the text of the new answer questions.

【技术实现步骤摘要】
一种文本数据处理方法及装置
本专利技术涉及数据处理
,尤其涉及一种文本数据处理方法及装置。
技术介绍
随着网络通信技术的发展,通过网络获取问题的答案成为解决问题的一种有效手段。但是针对同一问题,网络上存在的回答可能有很多,但是哪一个答案相对来说更准确,即如何衡量答案与问题之间的相关性成为研究热点之一。目前,主要都是通过问题与答案之间的文本相似度计算来进行衡量的,但是通常情况下,问题都比较简短,所包含的单词少,从而导致与其对应的答案之间存在语义鸿沟问题,因此,利用传统的文本相似度的衡量方法,使得衡量结果存在较大的误差。
技术实现思路
本专利技术实施例提供一种文本数据处理方法,用以提高答案文本与问题文本之间相关性衡量结果的准确性。本专利技术实施例提供一种文本数据处理方法,应用于交互问答系统中,所述交互问答系统中存储有至少一个问题文本,每一问题文本对应有至少一个答案文本,包括:接收用户针对任一问题文本提交的的新答案文本;将所述新答案文本分词,得到所述新答案文本包含的所有词语;根据所述新答案文本包含的所有词语以及第一预设算法确定所述新答案文本对应的响应变量参数,其中,所述第一预设算法根据所述交互问答系统中已存储的所述问题文本与该问题文本对应的至少一个答案文本确定,所述响应变量参数表示所述新答案文本与所述问题文本之间的匹配程度。本专利技术实施例提供一种文本数据处理装置,应用于交互问答系统中,所述交互问答系统中存储有至少一个问题文本,每一问题文本对应有至少一个答案文本,包括:接收单元,用于接收用户针对任一问题文本提交的的新答案文本;分词单元,用于将所述新答案文本分词,得到所述新答案文本包含的所有词语;确定单元,用于根据所述新答案文本包含的所有词语以及第一预设算法确定所述新答案文本对应的响应变量参数,其中,所述第一预设算法根据所述交互问答系统中已存储的所述问题文本与该问题文本对应的至少一个答案文本确定,所述响应变量参数表示所述新答案文本与所述问题文本之间的匹配程度。本专利技术实施例提供的文本数据处理方法,将接收到的待衡量的新答案文本分词,得到新答案文本包含的所有词语,根据该新答案文本包含的所有词语,按照预设算法确定新答案文本对应的响应变量参数,该响应变量参数反应了新答案文本与问题文本之间的匹配程度,若确定出的响应变量参数越大,则答案文本与问题文本之间越匹配,反之,答案文本与问题文本之间越不匹配。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为现有技术中,LDA模型下,文档生成过程示意图;图2为本专利技术实施例中,sLDA模型下,文档生成过程示意图;图3为本专利技术实施例中,文本数据处理方法的实施流程示意图;图4为本专利技术实施例中,文本数据处理装置的结构示意图。具体实施方式为了提高答案文本与问题文本衡量结果的准确性,本专利技术实施例提供了一种文本数据处理方法及装置。以下结合说明书附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术,并且在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。为了更好地理解本专利技术实施例,首先介绍一下潜在狄利克雷分配(LatentDirichletAllocation,LDA)主题模型。LDA模型是典型的有向概率图模型,具有清晰的层次结构,依次为:文档集合层、文档层和词层。利用LDA模型能够识别大规模文档集中潜藏的主题信息,例如,对于问题-答案文档集合来说,一个问题-答案对可以称为一个文档,每一文档代表了一些主体所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。因此,对于每一文档,可以按照以下过程生成:1)对每一文档,从主题分布中抽取一个主题;2)从上述被抽取到的主体所对应的单词分布中抽取一个单词;3)重复上述过程直至遍历文档中的每一个单词。更形式化一点说,每一文档与T(通过反复试验等方法事先给定)个主题的一个多项分布相对应,将该多项分布记为θ,每个主题又与词汇表中的V个单词的一个多项分布相对应,将这个多项分布记为φ,上述词汇表是由文档集中所有文档中的互异单词组成。θ和φ分别有一个带有超参数α和β的Dirichlet先验分布。对于文档d中的每一个单词,从该文档所对应的多项分布θ中抽取一个主题z,然后再从主题z所对应的多项分布φ中抽取一个单词w,将这个过程重复Nd次,可以产生文档d,其中,Nd为文档d包含的单词总数,如图1所示,上述生成过程可以用图1所示的图模型表示,图1中,阴影圆圈表示可观测变量,非阴影圆圈表示潜在变量,方框表示重复抽样,重复次数在方框的右下角。上述介绍的LDA模型属于无监督主题模型,相比于无监督模型,监督主题模型sLDA中引入了响应变量参数,引入响应变量参数后能够提高主题抽取的准确性,从而能够进一步提高答案文本与问题文本衡量结果的准确性。本专利技术实施例中,将一个问题文本与一个答案文本称为一个文档,而上述响应变量参数为描述答案文本是否为问题文本的最佳答案文本的参数。如果答案文本为问题文本的最佳答案,在此情况下,答案文本和问题文本在主题分布上具有较大的相似性,从而其对应的响应变量参数设定为1;否则,答案文本和问题文本在主题分布上具有较少的共现性,这种情况下,其对应的响应变量参数设定为0。基于响应变量与问题文本-答案文本之间的关系,能够更好地发现文档中的潜在主题,并可以根据已有文档的训练结果,对训练结果用于新的问题文本-答案文本之间的响应变量参数确定上。基于此,本专利技术实施例中,根据对已知的问题文本-答案文本(即已有的历史答案文本)的训练结果,确定答案文本与问题文本之间响应变量参数的计算模型。则针对该问题文本对应的新的答案文本,可以根据上述计算模型来确定新的答案文本与问题文本之间的响应变量参数,如果响应变量参数越高,则说明该新的答案文本与问题文本之间越相关,该新的答案文本越可能是最佳答案,反之,答案文本与问题文本之间越不相关,该新的答案文本越可能会是一个无关答案文本甚至可能是一个垃圾答案文本。以下介绍在sLDA主体模型中如何产生文档d,类似于LDA模型,在sLDA模型中,假设文档d是在一个主题z上的多项分布,而文档d中包含的词语又是在主题z和多项分布β上的联合分布,而响应变量参数b是一个在主题z和以η,σ为参数的正态分布的联合分布。因此,sLDA模型中,文档的产生模型可以分为以下三个部分:1)对于文档d来说,其主题采样θ是一个在参数α上的狄利克雷分布,Dirichlet分布就是k取1时的ConjugatePrior(共轭先验分布)。若k维随机向量θ~Drichlet分布,则θ的k个分量θ_1,θ_2,...,θ_k都取连续的非负值,且θ_1+θ_2+...+θ_k=1。具体实施时,由于同一问题文本可能存在多个已知的答案文本,该问题文本与每一答案文本形成一个文档,因此,针对同一问本文档来自技高网...
一种文本数据处理方法及装置

【技术保护点】
一种文本数据处理方法,应用于交互问答系统中,所述交互问答系统中存储有至少一个问题文本,每一问题文本对应有至少一个答案文本,其特征在于,包括:接收用户针对任一问题文本提交的新答案文本;将所述新答案文本分词,得到所述新答案文本包含的所有词语;根据所述新答案文本包含的所有词语以及第一预设算法确定所述新答案文本对应的响应变量参数,其中,所述第一预设算法根据所述交互问答系统中已存储的所述问题文本与该问题文本对应的至少一个答案文本确定,所述响应变量参数表示所述新答案文本与所述问题文本之间的匹配程度;所述新答案文本对应的响应变量参数由公式

【技术特征摘要】
1.一种文本数据处理方法,应用于交互问答系统中,所述交互问答系统中存储有至少一个问题文本,每一问题文本对应有至少一个答案文本,其特征在于,包括:接收用户针对任一问题文本提交的新答案文本;将所述新答案文本分词,得到所述新答案文本包含的所有词语;根据所述新答案文本包含的所有词语以及第一预设算法确定所述新答案文本对应的响应变量参数,其中,所述第一预设算法根据所述交互问答系统中已存储的所述问题文本与该问题文本对应的至少一个答案文本确定,所述响应变量参数表示所述新答案文本与所述问题文本之间的匹配程度;所述新答案文本对应的响应变量参数由公式确定,其中:E[b|w,α,β,η,σ2]为所述答案文本对应的响应变量参数;z为所述问题文本及所述交互问答系统中存储的该问题文本对应的至少一个答案文本中所包含的主题;w为所述新答案文本包含的所有词语;α,β,η,σ2分别为根据所述问题文本及所述交互问答系统中存储的该问题文本对应的至少一个答案文本和第二预设算法确定出的参数。2.如权利要求1所述的方法,其特征在于,按照以下公式确定其中:N表示所述问题文本及所述交互问答系统中存储的该问题文本对应的至少一个答案文本中所包含的词语的数量,zn表示所述问题文本及所述交互问答系统中存储的该问题文本对应的至少一个答案文本中所包含的第n个词语所对应的主题。3.如权利要求1所述的方法,其特征在于,所述第二预设算法包括期望最大化EM算法。4.如权利要求1所述的方法,其特征在于,还包括:根据所述响应变量参数,在预先建立的响应变量参数与匹配参数之间的映射关系中,查找所述响应变量参数对应的匹配参数,所述匹配参数表示所述新答案文本的价值。5.一种文本数...

【专利技术属性】
技术研发人员:凌俊民刘晓峰梁耿李广杰韦媚
申请(专利权)人:中国移动通信集团广西有限公司
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1