语意相似度计算方法技术

技术编号:26763951 阅读:50 留言:0更新日期:2020-12-18 23:32
一种语意相似度计算方法,包括下列步骤,首先,输入待解析的语句,并将该语句与每一标示词预设的杂词进行去杂词处理,接着,提取该语句中的字词与每一标示词预设的反义词进行反义词检查,然后,将该语句与每一标示词预设的相似词进行相似词的置换,接着,该语句与每一标示词默认的特征词进行特征词检查,以获取语意解析后的规则语句,最后,对所述的规则语句与该标示词进行相似度计算,以输出与该规则语句的语意相对应的响应语句。

【技术实现步骤摘要】
语意相似度计算方法
本专利技术是有关一种相似度计算方法,特别是指一种语意相似度计算方法。
技术介绍
随着科技的日新月异,人类与智能型电子装置间的沟通模式已透过最自然且方便的语音来进行,近年来互动要求为主的机器人陆续被发表。目前较为熟知的人机互动技术有一种是先针对使用者可能会表达的话语或问题,于机器人身上内建预先设好的对话数据库,当机器人接收到语音消息即与内建的对话数据库进行比对,以辨识该语音消息的语意,而进行的互动对谈,如果需达到双向互动沟通的功能,设备所需对话数据量非常巨大,单以人工方式建置该对话数据库,除了需耗费庞大的时间与人力成本,更会增加存放数据库的内存空间,且建置后的对话数据库若无持续扩充更新,几次后使用者将对机器人丧失新鲜感。另一种技术则是透过神经网络进行深度学习,于实务上神经网络大多利用超级计算机或单芯片系统来实现。在使用单芯片系统的情况下,是令单芯片系统中的同一套电路在不同时间点分别扮演多层人造神经网络中不同的运算层,当神经网络的层数越多,越能模拟复杂的函式(亦即较复杂的判断规则),然而,当层数增加,整个网络中所需要的神经元数量会随的大幅增长,将衍生庞大的硬件成本负担,且各个运算层的输入数据、可学习参数与运算结果的数据数量都非常可观,绝非一般企业得以负担。上述缺点都是现有人机互动技术在使用上所衍生的种种问题,依目前人工智能的发展,要达到人机自主互动仍属不易,毕竟语言是人类经过长期学习与经验累积的文化产物,因此,如何利用有限度的对话数据库,且快速撷取使用者的语意进行分析,成为重要课题。
技术实现思路
有鉴于此,本专利技术的目的,是提供一种语意相似度计算方法,包括下列步骤。输入待解析的语句,并将该语句与每一标示词预设的杂词进行去杂词处理,提取该语句中的字词与每一标示词预设的反义词进行反义词检查,将该语句与每一标示词预设的相似词进行相似词的置换,该语句与每一标示词默认的特征词进行特征检查,以获取一语意解析后的规则语句,对所述的规则语句与该标示词进行相似度计算,以输出与该规则语句的语意相对应的响应语句。本专利技术的另一技术手段,在于该语句与每一标示词默认的常数特征词先进行特征词检查,再与每一标示词默认的变量特征词进行特征词检查,且标示词的特征词包括至少一常数特征词、至少一变量特征词,或二者的组合,而每一变量特征词具有多个与该变量特征词相关的关联特征词。本专利技术的又一技术手段,在于该语句与每一标示词默认的常数特征词先进行特征词检查,再与每一标示词默认的变量特征词进行特征词检查,且该标示词的特征词包括至少一常数特征词、至少一变量特征词,或二者的组合,每一变量特征词具有多个与该变量特征词相关的关联特征词,且多个变量特征词间互为交集关系。本专利技术的再一技术手段,在于上述的多个变量特征词有先后的排列顺序。本专利技术的另一技术手段,在于上述是先对该常数特征词进行检查,再对该变量特征词进行检查。本专利技术的又一技术手段,在于上述当同时符合进行特征检查的标示词的常数特征词与该变量特征词时,获取该规则语句。本专利技术的再一技术手段,在于上述的响应语句提取对应的标示词的常数特征词或该变量特征词分别设置有至少一常数响应特征词、至少一变量响应特征词,或二者的组合,且该常数响应特征词与该变量响应特征词是对应该常数特征词与该变量特征词的顺序设置。本专利技术的另一技术手段,在于上述进行相似度计算会依据该常数特征词与该变量特征词的先后排列顺序进行特征词检查。本专利技术的又一技术手段,在于当该规则语句与该标示词进行相似度计算后,将该响应语句与预设的匹配度阀值进行检查,并保留大于所述匹配度阀值的响应语句,以输出该响应语句。本专利技术的再一技术手段,是在于当该语句与该规则库中的任一标示词都无法匹配时,即根据该语句的字词与广泛规则库中的标示词进行匹配,以获取依据该语句的字词所得的广泛回应语句。本专利技术的有益功效在于,通过在该标示词设置至少一个常数特征词、至少一个变量特征词或两者的组合,且变量特征词设置有与该变量特征词本身相关的关联特征词,以与多元化使用者语句的表达方式进行特征词检查,并透过相对应设置的变量响应特征词,可以有多种不同的回答,除了可减少人力设置标示词的时间与计算机的运算时间外,更可大幅提升人机互动的灵活性,以满足不同领域、场合的使用需求。附图说明图1是流程示意图,说明本专利技术语意相似度计算方法的较佳实施例。具体实施方式有关本专利技术的相关申请专利特色与
技术实现思路
,在以下配合参考图式的较佳实施例的详细说明中,将可清楚的呈现。参阅图1,为本专利技术语意相似度计算方法的较佳实施例,适用于对使用者与机器人沟通过程的语意进行解析,并产生相对应的响应,该方法包括下列步骤。首先,进行步骤91,输入待解析的语句,并将该语句与每一标示词预设的杂词进行去杂词处理,去杂词指将该问句中的赘词去除,而预设的杂词可以是0个或是多个,例如请问、假如、比如、像是…等口语无意义的字词,而输入的语句可以是由使用者直接与机器人对谈,或是撷取语音所得,再将语音转成文字或文字转成语音等过程非本专利技术的技术重点,于此不多赘述。于此,使用下表1标示词字段“你喜欢{xq0}{xq1}”作为本实施例的说明,而由去杂词字段列出有预设的去杂词如:相对而言、比较、看等等。接着,进行步骤92,提取该语句中的字词与每一标示词预设的反义词进行反义词检查。反义词是依据与每一标示词相反的用词所设,而预设的反义词可以是0个或是多个,例如标示词中愿意的反义词可以是不愿意、不爱、不想、不需要、不要等等,若于本步骤出现该标示词预设的反义词,意指与该标示词语意不同而转与其他标示词进行检查。预设的标示词可针对医院、学校、游乐园、百货公司等其中一特定领域或场合使用的标示词词库,用以作为该场合的客服咨询使用。如下表1的标示词的反义词预设为明星。表1然后,进行步骤93,将该语句与每一标示词预设的相似词进行相似词的置换,相似词是依每一标示词所设,而预设的相似词可以是0个或是多个,例如上表1标示词中喜欢的相似词字段列出有喜爱、喜爱、偏爱等等,或是国父与孙中山等等。实际实施时,亦可先进行步骤93相似词置换再进行步骤92反义词检查,不应以此为限。接着,进行步骤94,该语句与每一标示词默认的常数特征词进行特征词检查,如上表1常数特征词字段默认为你喜欢,若出现“你喜欢”意指与该标示词语意相同而进行下一步骤,反之则转与其他标示词进行检查。然后,进行步骤95,该语句与每一标示词默认的变量特征词进行特征词检查,以获取语意解析后的规则语句。该标示词的特征词包括至少一常数特征词、至少一变量特征词,或二者的组合,此外,每一变量特征词具有多个与该变量特征词相关的关联特征词。于此,该特征词可以是名词、动词、动名词或形容词,如上表1变量特征词字段默认有篮球、舞蹈、跳舞等。进一步地,该多个变量特征词间互为交集关系,且该多个变量特征词有先后的排列顺序,如上表1的标示词中的{xq0}{xq1}本文档来自技高网
...

【技术保护点】
1.一种语意相似度计算方法,其特征在于,包括下列步骤︰/n输入待解析的语句,并将所述语句与每一标示词预设的杂词进行去杂词处理;/n提取所述语句中的字词与每一标示词预设的反义词进行反义词检查;/n将所述语句与每一标示词预设的相似词进行相似词的置换;/n所述语句与每一标示词默认的特征词进行特征词检查,以获取语意解析后的规则语句;及/n对所述规则语句与所述标示词进行相似度计算,以输出与所述规则语句的语意相对应的响应语句。/n

【技术特征摘要】
1.一种语意相似度计算方法,其特征在于,包括下列步骤︰
输入待解析的语句,并将所述语句与每一标示词预设的杂词进行去杂词处理;
提取所述语句中的字词与每一标示词预设的反义词进行反义词检查;
将所述语句与每一标示词预设的相似词进行相似词的置换;
所述语句与每一标示词默认的特征词进行特征词检查,以获取语意解析后的规则语句;及
对所述规则语句与所述标示词进行相似度计算,以输出与所述规则语句的语意相对应的响应语句。


2.如权利要求1所述的语意相似度计算方法,其特征在于,在进行所述语句的特征词检查时,所述语句与每一标示词默认的常数特征词先进行特征词检查,再与每一标示词默认的变量特征词进行特征词检查,且所述标示词的特征词包括至少一常数特征词、至少一变量特征词,或二者的组合,而每一变量特征词具有多个与所述变量特征词相关的关联特征词。


3.如权利要求1所述的语意相似度计算方法,其特征在于,在进行所述语句的特征词检查时,所述语句与每一标示词默认的常数特征词先进行特征词检查,再与每一标示词默认的变量特征词进行特征词检查,且所述标示词的特征词包括至少一常数特征词、至少一变量特征词,或二者的组合,每一变量特征词具有多个与所述变量特征词相关的关联特征词,且多个所述变量特征词间互为交集关系。


4.如权利要求2或3所述的语意相似度计算方...

【专利技术属性】
技术研发人员:黄本聪陈建亨
申请(专利权)人:云义科技股份有限公司
类型:发明
国别省市:中国台湾;71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1