The invention discloses a data processing method and a device used in interactive QA system, the interactive question answering system is stored in at least one text, text of each issue corresponding to at least one answer text, in order to improve the accuracy of the results to measure the correlation between the text and the text answer questions. Text data processing method includes: receiving user text for any new answers to the question text submitted; the new answer text segmentation, get all the new words answer text contains words; according to all the new answers to the text that contains the first preset algorithm and determine whether the new answer text corresponding to the response variable parameters. Among them, the first preset algorithm according to the interactive question and answer at least one answer text text of the problem in the storage system and the corresponding problems identified, the response variable parameter represents the matching degree between the text and the text of the new answer questions.
【技术实现步骤摘要】
一种文本数据处理方法及装置
本专利技术涉及数据处理
,尤其涉及一种文本数据处理方法及装置。
技术介绍
随着网络通信技术的发展,通过网络获取问题的答案成为解决问题的一种有效手段。但是针对同一问题,网络上存在的回答可能有很多,但是哪一个答案相对来说更准确,即如何衡量答案与问题之间的相关性成为研究热点之一。目前,主要都是通过问题与答案之间的文本相似度计算来进行衡量的,但是通常情况下,问题都比较简短,所包含的单词少,从而导致与其对应的答案之间存在语义鸿沟问题,因此,利用传统的文本相似度的衡量方法,使得衡量结果存在较大的误差。
技术实现思路
本专利技术实施例提供一种文本数据处理方法,用以提高答案文本与问题文本之间相关性衡量结果的准确性。本专利技术实施例提供一种文本数据处理方法,应用于交互问答系统中,所述交互问答系统中存储有至少一个问题文本,每一问题文本对应有至少一个答案文本,包括:接收用户针对任一问题文本提交的的新答案文本;将所述新答案文本分词,得到所述新答案文本包含的所有词语;根据所述新答案文本包含的所有词语以及第一预设算法确定所述新答案文本对应的响应变量参数,其中,所述第一预设算法根据所述交互问答系统中已存储的所述问题文本与该问题文本对应的至少一个答案文本确定,所述响应变量参数表示所述新答案文本与所述问题文本之间的匹配程度。本专利技术实施例提供一种文本数据处理装置,应用于交互问答系统中,所述交互问答系统中存储有至少一个问题文本,每一问题文本对应有至少一个答案文本,包括:接收单元,用于接收用户针对任一问题文本提交的的新答案文本;分词单元,用于将所述新答案文本分词 ...
【技术保护点】
一种文本数据处理方法,应用于交互问答系统中,所述交互问答系统中存储有至少一个问题文本,每一问题文本对应有至少一个答案文本,其特征在于,包括:接收用户针对任一问题文本提交的新答案文本;将所述新答案文本分词,得到所述新答案文本包含的所有词语;根据所述新答案文本包含的所有词语以及第一预设算法确定所述新答案文本对应的响应变量参数,其中,所述第一预设算法根据所述交互问答系统中已存储的所述问题文本与该问题文本对应的至少一个答案文本确定,所述响应变量参数表示所述新答案文本与所述问题文本之间的匹配程度;所述新答案文本对应的响应变量参数由公式
【技术特征摘要】
1.一种文本数据处理方法,应用于交互问答系统中,所述交互问答系统中存储有至少一个问题文本,每一问题文本对应有至少一个答案文本,其特征在于,包括:接收用户针对任一问题文本提交的新答案文本;将所述新答案文本分词,得到所述新答案文本包含的所有词语;根据所述新答案文本包含的所有词语以及第一预设算法确定所述新答案文本对应的响应变量参数,其中,所述第一预设算法根据所述交互问答系统中已存储的所述问题文本与该问题文本对应的至少一个答案文本确定,所述响应变量参数表示所述新答案文本与所述问题文本之间的匹配程度;所述新答案文本对应的响应变量参数由公式确定,其中:E[b|w,α,β,η,σ2]为所述答案文本对应的响应变量参数;z为所述问题文本及所述交互问答系统中存储的该问题文本对应的至少一个答案文本中所包含的主题;w为所述新答案文本包含的所有词语;α,β,η,σ2分别为根据所述问题文本及所述交互问答系统中存储的该问题文本对应的至少一个答案文本和第二预设算法确定出的参数。2.如权利要求1所述的方法,其特征在于,按照以下公式确定其中:N表示所述问题文本及所述交互问答系统中存储的该问题文本对应的至少一个答案文本中所包含的词语的数量,zn表示所述问题文本及所述交互问答系统中存储的该问题文本对应的至少一个答案文本中所包含的第n个词语所对应的主题。3.如权利要求1所述的方法,其特征在于,所述第二预设算法包括期望最大化EM算法。4.如权利要求1所述的方法,其特征在于,还包括:根据所述响应变量参数,在预先建立的响应变量参数与匹配参数之间的映射关系中,查找所述响应变量参数对应的匹配参数,所述匹配参数表示所述新答案文本的价值。5.一种文本数...
【专利技术属性】
技术研发人员:凌俊民,刘晓峰,梁耿,李广杰,韦媚,
申请(专利权)人:中国移动通信集团广西有限公司,
类型:发明
国别省市:广西,45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。