本发明专利技术公开了一种自动聊天响应方法,属于自动聊天技术领域;方法包括通过爬取网络论坛数据预先生成多个问答对数据,并采用一预设的索引方式根据多个问答对数据建立索引,每个问答对数据中包括一个问题语句以及对应的至少一个回复语句,还包括:获取用户输入的输入语句;根据输入语句查询得到至少一个问题语句;将查询到的至少一个问题语句所对应的所有回复语句作为输入语句的候选回答;从候选回答中选择一个回复语句,以作为输入语句的回答并输出给用户查看。上述技术方案的有益效果是:降低自动聊天的实现成本,使得自动聊天软件容易产品化,并且可以有效避免语法分析、句法分析等逻辑步骤,简化自动聊天中的检索和处理过程。
An Automatic Chat Response Method
【技术实现步骤摘要】
一种自动聊天响应方法
本专利技术涉及自动聊天
,尤其涉及一种自动聊天响应方法。
技术介绍
自动聊天技术是一种通过自然语言在人与机器人或者虚拟软件之间进行交流的人机对话服务。用户可以输入聊天语句,系统通过自动聊天模块找到合适的回复语句并进行自动回复,多次的语句输入和自动回复就可以模拟构成自动聊天的场景。随着智能终端例如智能手机的快速发展,终端用户希望实现更人性化的人机交互体验,能够体验更真实的自动聊天服务。传统的自动聊天技术通常分为两种:一种是检索式自动聊天技术,这种技术需要人工编写很多的问答对数据。输入聊天语句后,匹配事先编写的问答对数据,将所匹配到的问题的回复作为聊天的输出。这种技术需要耗费大量的人力工作,并且最终匹配得到的回复语句比较固定,同时收到问答对数据数量上的限制,用户体验并不好。另一种是生成式自动聊天技术,这种技术通常是基于深度神经网络的序列到序列的方法,即输入聊天语句后,通过训练好的自动聊天模型来自动生成回复语句。这种技术需要事先准备大量数据的聊天对训练语料,并且基于深度神经网络训练序列到序列的模型,因此这种技术的聊天体验效果距离实际应用和产品化还有一定的距离,其不足以解决现实的问题。
技术实现思路
根据现有技术中存在的上述问题,现提供一种自动聊天响应方法的技术方案,旨在降低自动聊天的实现成本,使得自动聊天软件容易产品化,并且可以有效避免语法分析、句法分析等逻辑步骤,简化自动聊天中的检索和处理过程。上述技术方案具体包括:一种自动聊天响应方法,适用于检索式的自动聊天问答过程中;其中,通过爬取网络论坛数据预先生成多个问答对数据,并采用一预设的索引方式根据多个所述问答对数据建立索引,每个所述问答对数据中包括一个问题语句以及对应的至少一个回复语句,还包括:步骤S1,获取用户输入的输入语句;步骤S2,根据所述输入语句查询得到至少一个所述问题语句;步骤S3,将查询到的至少一个所述问题语句所对应的所有所述回复语句作为所述输入语句的候选回答;步骤S4,从所述候选回答中选择一个所述回复语句,以作为所述输入语句的回答并输出给所述用户查看。优选的,该自动聊天响应方法,其中,在爬取所述网络论坛数据时,将所述网络论坛数据中的论坛标题作为所述问答对数据中的所述问题语句,并将所述论坛标题所对应的回复内容作为所述问题语句所对应的所述回复语句。优选的,该自动聊天响应方法,其中,预先生成多个问答对数据后,先采用预设的策略对所述问答对数据中的所述回复语句分别进行过滤,以得到过滤后的所述回复语句,在根据多个所述问答对数据建立索引。优选的,该自动聊天响应方法,其中,所述预设的策略包括:滤除数据长度位于预设的一长度范围之外的所述回复语句;和/或滤除包括预设的多个第一类过滤词汇中至少一个的所述回复语句。优选的,该自动聊天响应方法,其中,所述预设的索引方式为根据多个所述问答对数据,采用Lucene框架建立索引。优选的,该自动聊天响应方法,其中,所述步骤S2中,通过Lucene框架中提供的查询功能查询得到至少一个所述问题语句。优选的,该自动聊天响应方法,其中,所述步骤S2具体包括:步骤S21,将所述输入语句与所有所述问答对数据中的所述问题语句进行匹配,以获取每个所述问题语句与所述输入语句之间的语义近似度;步骤S22,根据所述语义近似度由高至低依序排列所述问题语句,并选择前N个所述问题语句作为查询得到的所述问题语句并输出。优选的,该自动聊天响应方法,其中,所述步骤S3中,得到所述候选回答后,滤除所述候选回答中的包括预设的多个第二类过滤词汇中至少一个的所述回复语句,以形成过滤后的所述候选回答,随后转向所述步骤S4。优选的,该自动聊天响应方法,其中,所述步骤S4具体包括:步骤S41a,分别处理得到所述候选回答中的每个所述回复语句与所述输入语句之间的相似度;步骤S42a,选择所述相似度最高的所述回复语句,以作为所述输入语句的回答并输出给所述用户查看。优选的,该自动聊天响应方法,其中,所述步骤S4具体包括:步骤S41b,分别处理得到所述候选回答中的每个所述回复语句与所述输入语句之间的相似度;步骤S42b,根据所述相似度由高至低依序排列所述回复语句,并选取前M个所述回复语句作为关联于所述问题语句的回答集合;步骤S43b,从所述回答集合中随机选择一个所述回复语句,以作为所述输入语句的回答并输出给所述用户查看。上述技术方案的有益效果是:提供一种自动聊天响应方法,能够降低自动聊天的实现成本,使得自动聊天软件容易产品化,并且可以有效避免语法分析、句法分析等逻辑步骤,简化自动聊天中的检索和处理过程。附图说明图1是本专利技术的较佳的实施例中,一种自动聊天响应方法的总体流程示意图;图2是本专利技术的较佳的实施例中,于图1的基础上,步骤S2的具体流程示意图;图3是本专利技术的一个较佳的实施例中,于图1的基础上,步骤S4的具体流程示意图;图4是本专利技术的另一个较佳的实施例中,于图1的基础上,步骤S4的具体流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。下面结合附图和具体实施例对本专利技术作进一步说明,但不作为本专利技术的限定。基于现有技术中存在的问题,现提供一种自动聊天响应方法,该方法适用于自动聊天问答过程中,具体地适用于检索式的自动聊天问答过程中。上述方法中,首先通过爬取网络论坛数据预先生成多个问答对数据,并采用一预设的索引方式根据多个问答对数据建立索引,每个问答对数据中包括一个问题语句以及对应的多个回复语句。上述方法具体如图1中所示,还包括:步骤S1,获取用户输入的输入语句;步骤S2,根据输入语句查询得到至少一个问题语句;步骤S3,将查询到的至少一个问题语句所对应的所有回复语句作为输入语句的候选回答;步骤S4,从候选回答中选择一个回复语句,以作为输入语句的回答并输出给用户查看。具体地,本实施例中,首先通过爬取网络论坛上的论坛数据的方式预先生成多个问答对数据,每个问答对数据中包括一个问题语句以及对应的至少一个回复语句。进一步地,可以采用爬虫软件或者其他现有的爬取数据的方式来爬取网络论坛数据,爬取的对象可以为流量比较大的大型论坛,以保证问答对数据的数据量。随后,再采用一预设的索引方式根据上述多个问答对数据建立索引,具体地根据问答对数据中问题语句以及对应的至少一个回复语句之间的关联关系来建立索引。本实施例中,在建立关于问答对数据的索引之后,首先获取用户输入的输入语句,该输入语句通常是带有查询语气的语句,用户期望通过输入语句来获取与该语句相符的回答。随后,系统根据获取的输入语句对之前建立的关联于问答对数据的索引进行查询,以查询得到至少一个与输入语句相关联的问题语句。本实施例中,在查询得到至少一个问题语句的同时就能够查询得到该至少一个问题语句所对应的至少一个回复语句,并将这些回复语句均加入到候选回答中,最后再从候选回答中选择一个回复语句作为上述输入语句的回答并反馈给用户查本文档来自技高网...
【技术保护点】
1.一种自动聊天响应方法,适用于检索式的自动聊天问答过程中;其特征在于,通过爬取网络论坛数据预先生成多个问答对数据,并采用一预设的索引方式根据多个所述问答对数据建立索引,每个所述问答对数据中包括一个问题语句以及对应的至少一个回复语句,还包括:步骤S1,获取用户输入的输入语句;步骤S2,根据所述输入语句查询得到至少一个所述问题语句;步骤S3,将查询到的至少一个所述问题语句所对应的所有所述回复语句作为所述输入语句的候选回答;步骤S4,从所述候选回答中选择一个所述回复语句,以作为所述输入语句的回答并输出给所述用户查看。
【技术特征摘要】
1.一种自动聊天响应方法,适用于检索式的自动聊天问答过程中;其特征在于,通过爬取网络论坛数据预先生成多个问答对数据,并采用一预设的索引方式根据多个所述问答对数据建立索引,每个所述问答对数据中包括一个问题语句以及对应的至少一个回复语句,还包括:步骤S1,获取用户输入的输入语句;步骤S2,根据所述输入语句查询得到至少一个所述问题语句;步骤S3,将查询到的至少一个所述问题语句所对应的所有所述回复语句作为所述输入语句的候选回答;步骤S4,从所述候选回答中选择一个所述回复语句,以作为所述输入语句的回答并输出给所述用户查看。2.如权利要求1所述的自动聊天响应方法,其特征在于,在爬取所述网络论坛数据时,将所述网络论坛数据中的论坛标题作为所述问答对数据中的所述问题语句,并将所述论坛标题所对应的回复内容作为所述问题语句所对应的所述回复语句。3.如权利要求1所述的自动聊天响应方法,其特征在于,预先生成多个问答对数据后,先采用预设的策略对所述问答对数据中的所述回复语句分别进行过滤,以得到过滤后的所述回复语句,在根据多个所述问答对数据建立索引。4.如权利要求3所述的自动聊天响应方法,其特征在于,所述预设的策略包括:滤除数据长度位于预设的一长度范围之外的所述回复语句;和/或滤除包括预设的多个第一类过滤词汇中至少一个的所述回复语句。5.如权利要求1所述的自动聊天响应方法,其特征在于,所述预设的索引方式为根据多个所述问答对数据,采用Lucene框架建立索引。6.如权利要求5所述的自...
【专利技术属性】
技术研发人员:王昊,陈见耸,沈磊,高鹏,
申请(专利权)人:芋头科技杭州有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。