【技术实现步骤摘要】
一种从销售会话中确定会话主体角色标签的方法及系统
[0001]本专利技术涉及自然语言处理
,尤其涉及一种从销售会话中确定会话主体角色标签的方法及系统。
技术介绍
[0002]在销售会话系统中,获取会话音频或视频、并将会话音频或视频快速准确的转换为文本对话,是企业提取分析销售数据、进行后续决策与经营活动的重要前提。将会话音频或视频转换成文本对话中的重要的一环是:如何从多种对话行业、多个说话人身份中快速精准的确认说话人(即会话主体)角色标签。
[0003]销售领域中涉及的行业众多,相应地,说话人在销售对话系统中也有很多可能的角色。根据根对话所涉及的领域,说话人的身份可能是“猎头”、“候选人”、“售后客服”、“代理商”等中的任何一个,因此对说话人角色标签进行确认存在一定的挑战。业界的角色标签确认方案主要可分为人工确认方法与基于关键词匹配的方法,其中:
[0004]基于人工确认的方法需要在获取到文本会话内容后,通过人工介入以确认说话人角色标签。这种方法严重依赖于操作人员的经验水平与处理速度,效率低,不适合批量处理大规模会话内容,更不利于整个销售系统的自动化。
[0005]基于关键词匹配的方法通过预设一部分关键词,在获取到文本会话内容后,通过匹配关键词的方式确认说话人的角色标签。这种方法需要根据先验知识提取行业相关关键词,因此无法直接应用于新的行业及领域,扩展性较差。此外,由于说话人所处通话环境的复杂性、录音硬件的质量及业界自动语音识别技术的局限性等因素,在通过自动语音识别技术得到的文本内容的效果 ...
【技术保护点】
【技术特征摘要】
1.一种从销售会话中确定会话主体角色标签的方法,其特征在于,包括:对销售会话进行文字转录,得到多条会话片段;其中,每一会话片段对应一个会话主体,每一会话主体对应一个角色标签;根据所述销售会话所属领域,确定该领域中销售会话涉及的角色标签、以及各角色标签对应的正则规则库;过滤符合过滤规则的会话片段,将剩余会话片段作为备用会话片段;分别基于正则规则库方式、机器学习方式对所述备用会话片段进行角色识别,获取每一会话主体在两种方式下被识别为各角色标签的得分;根据每一会话主体在两种方式下被识别为各角色标签的得分,确定各会话主体的角色标签。2.根据权利要求1所述的从销售会话中确定会话主体角色标签的方法,其特征在于,通过执行以下操作确定各会话主体的角色标签:分别获取第i个会话主体被识别为第一角色标签、第二角色标签的综合得分FS
i
、FC
i
::其中,NS
i
、NC
i
分别表示第i个会话主体在正则规则库方式下被识别为第一角色标签、第二角色标签的得分;NS
j
、NC
j
分别表示第j个会话主体在正则规则库方式下被识别为第一角色标签、第二角色标签的得分;MS
i
、MC
i
分别表示第i个会话主体在机器学习方式下被识别为第一角色标签、第二角色标签的得分;MS
j
、MC
j
分别表示第j个会话主体在机器学习方式下被识别为第一角色标签、第二角色标签的得分;α表示角色识别加权系数;i、j的取值范围均为1到N,N表示会话主体的总数,N为大于等于2的整数;若FS
i
>FC
i
,则第i个会话主体的角色标签为第一角色标签;若FS
i
<FC
i
,则第i个会话主体的角色标签为第二角色标签。3.根据权利要求2所述的从销售会话中确定会话主体角色标签的方法,其特征在于,通过执行以下操作获取每一会话主体在正则规则库方式下被识别为各角色标签的得分:获取每一备用会话片段匹配于各角色标签的正则规则库中正则规则的数量,并将该备用会话片段标记为匹配正则规则数量较多的一方的角色标签;分类汇总各备用会话片段的角色标签的数量,得到每一会话主体在正则规则库方式下被识别为各角色标签的会话片段的数量;对每一会话主体在正则规则库方式下被识别为各角色标签的会话片段的数量进行归一化处理,得到每一会话主体在正则规则库方式下被识别为相应角色标签的得分。4.根据权利要求3所述的从销售会话中确定会话主体角色标签的方法,其特征在于,通过以下公式实现所述归一化处理,从而得到每一会话主体在正则规则库方式下被识别为各角色标签的得分:第i个会话主体在正则规则库方式下被识别为第一角色标签的得分NS
i
...
【专利技术属性】
技术研发人员:陈竑,韩三普,杨晨,
申请(专利权)人:北京深维智信科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。