The invention discloses a method and apparatus for creating conversational scene database, this method is set in advance at least one scene information; the establishment of the initial database corresponding to the scene information; and obtaining the initial session of the initial semantic relation database as a relational database on the initial session; to create a relational database corresponding to the scene information items for a session with the initial session of the theme and the session initiation sentence corresponding association a sentence in the associated database, and will initiate a conversation sentence and associated answer sentence as association session on the initial session of the initial session; the initial database information corresponding to the scene, as well as the initial database as in relational database the association created a session on the scene, as the information of the scene database; the scene information corresponding to the scene database As a session scenario database, the set of matches solves the technical problem of low matching accuracy and low matching efficiency, increases the diversity of matches and improves the user experience.
【技术实现步骤摘要】
一种会话场景数据库的创建方法及装置
本专利技术涉及通讯
,具体涉及一种会话场景数据库的创建方法及装置。
技术介绍
目前,不管是智能聊天机器人系统提供的智能聊天回复内容、还是移动通讯终端提供给通讯双方用于选择或智能回复的聊天回复内容,大多是通过数据库匹配的方式获取,例如针对会话发起句“一起去旅游吗?”,其回答可通过匹配与“旅游”话题对应的数据库获得与之对应的回复结果(例如“好呀,我喜欢旅游。”),然而,针对同一个会话发起句(例如“一起去旅游吗?”)在现实生活中往往需要有不同的回复结果(例如“天气不好,下次再去,怎么样?”、“我比较喜欢宅在家,不喜欢旅游。”、“最近工作太忙了,抽不出时间去旅游。”等等)。针对该问题,尽管可以通过在不同的数据库中针对该会话发起句均设置会话答复句,例如针对上述会话发起句,便可以分别在关于天气、兴趣爱好、时间等数据库中设置会话答复句,或者在同一个数据库中针对该会话发起句设置多个会话答复句来解决。但是依然存在以下问题:1、通过在不同的数据库中针对同一个会话发起句均设置会话答复句,势必会增大数据库创建的复杂度和工作量,从而影响数据匹配的效率;2、匹配没有针对性,从而导致匹配精度低;3、通过在同一个数据库中针对同一个会话发起句设置多个会话答复句容易导致设置的会话答复句不完备,从而影响匹配的精度。
技术实现思路
本专利技术提供了一种会话场景数据库的创建方法及装置,以解决采用现有的会话场景数据库匹配与会话发起句对应的回复结果出现的匹配效率和匹配精度不高的技术问题。根据本专利技术的一方面,提供了一种会话场景数据库的创建方法,包括:预先设定至少 ...
【技术保护点】
一种会话场景数据库的创建方法,其特征在于,包括:预先设定至少一个场景信息项;建立与所述场景信息项对应的初始数据库,所述初始数据库包括至少一个以所述场景信息项为会话主题的初始会话对,所述初始会话对以二元句对的形式进行保存;获取与所述初始会话对语义关联的初始数据库作为所述初始会话对的关联数据库;在所述关联数据库中创建以所述关联数据库对应的场景信息项为会话主题且与所述初始会话对中的会话发起句对应的关联答复句,并将所述会话发起句以及所述关联答复句作为所述初始会话对的关联会话对;将所述场景信息项对应的初始数据库中的初始会话对,以及以所述初始数据库作为关联数据库时在其中创建的所述关联会话对,作为所述场景信息项的场景数据库;将所述场景信息项对应的场景数据库的集合作为会话场景数据库。
【技术特征摘要】
1.一种会话场景数据库的创建方法,其特征在于,包括:预先设定至少一个场景信息项;建立与所述场景信息项对应的初始数据库,所述初始数据库包括至少一个以所述场景信息项为会话主题的初始会话对,所述初始会话对以二元句对的形式进行保存;获取与所述初始会话对语义关联的初始数据库作为所述初始会话对的关联数据库;在所述关联数据库中创建以所述关联数据库对应的场景信息项为会话主题且与所述初始会话对中的会话发起句对应的关联答复句,并将所述会话发起句以及所述关联答复句作为所述初始会话对的关联会话对;将所述场景信息项对应的初始数据库中的初始会话对,以及以所述初始数据库作为关联数据库时在其中创建的所述关联会话对,作为所述场景信息项的场景数据库;将所述场景信息项对应的场景数据库的集合作为会话场景数据库。2.根据权利要求1所述的会话场景数据库的创建方法,其特征在于,获取与所述初始会话对语义关联的初始数据库,作为所述初始会话对的关联数据库包括:选取预先设定的与所述初始会话对语义关联度大于预设关联阈值的所述场景信息项对应的初始数据库作为所述初始会话对的关联数据库。3.根据权利要求1所述的会话场景数据库的创建方法,其特征在于,获取与所述初始会话对语义关联的初始数据库,作为所述初始会话对的关联数据库包括:采集所述初始会话对所属的初始数据库中的所有初始会话对作为样本会话对;计算所述样本会话对中的样本会话发起句或样本会话答复句与除所述初始会话对对应的场景信息项外的其他所述场景信息项之间的相似度,获得与所述初始会话对对应的场景信息项的关联场景信息项;将与所述初始会话对对应的场景信息项的关联场景信息项对应的初始数据库作为所述初始会话对的关联数据库。4.根据权利要求3所述的会话场景数据库的创建方法,其特征在于,计算所述样本会话对中的样本会话发起句或样本会话答复句与除所述初始会话对对应的场景信息项外的其他所述场景信息项之间的相似度,获得与所述初始会话对对应的场景信息项的关联场景信息项包括:对所述样本会话对中的样本会话发起句或样本会话答复句进行预处理,获得分词文本,所述预处理包括分词、语义消歧、词性标注;计算所述分词文本对应的词向量与除所述初始会话对对应的场景信息项外的其他所述场景信息项对应的词向量之间的相似度;选取所述相似度大于预设相似度阈值的场景信息项作为与所述初始会话对对应的场景信息项的关联场景信息项。5.根据权利要求4所述的会话场景数据库的创建方法,其特征在于,选取所述相似度大于预设相似度阈值的场景信息项作为与所述初始会话对对应的场景信息项的关联场景信息项之后还包括:根据所述分词文本对应的词向量与除所述初始会话对对应的场景信息项外的其他所述场景信息项对应的词向量之间的相似度,创建所述分词文本与所述场景信息项之间的关联映射关系表,并保存所述关联映射关系表。6.根据权利要求1-5任一所述的会话场景数据库的创建方法,其特征在于,所述场景信息...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。