Method for automatically establishing personal corpus provided by the invention, through conversation content acquisition communication, access to the session content in a session on the scene, according to the preset label, collected a session on the corresponding tag tag value and scene scene, scene of the session and the corresponding label label label value and scene scene matching combined to generate personal corpus, solve the existing artificial establishment dialogue corpus workload and do not have individual specific technical problems. Not only greatly reduce the manual workload will establish dialogue corpus, and the scene of tags and the corresponding extraction according to the content of the communication session session to generate the value of the exclusive personal corpus with personal exclusive and highly targeted, personalized reflects the high level of.
【技术实现步骤摘要】
一种自动建立个人专属语料库的方法
本专利技术涉及通信
,具体涉及一种自动建立个人专属语料库的方法。
技术介绍
目前,智能会话系统中用于自动回复的会话回复内容,往往是通过匹配会话语料库的方式获取。上述过程中的会话语料库,主要是通过人工创建的。人工建库的工作量大,且建库质量普遍不高。此外,现有技术方案中的会话语料库几乎都是通用于所有用户的,不具备个人专属性和针对性。针对该问题,故本实施例提出了一种基于会话内容自动建立个人专属语料库的方法。
技术实现思路
本专利技术提供了一种自动建立个人专属语料库的方法,以解决现有采用人工建立会话语料库的工作量大且不具备个人专属性的技术问题。本专利技术提供的自动建立个人专属语料库的方法,包括:采集通讯方的会话内容;获取会话内容中的会话对;根据预设的场景标签,采集获得会话对与场景标签对应的场景标签值;将会话对、场景标签以及与场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库。进一步地,获取会话内容中的会话对包括:根据会话内容中会话句的语义,确定会话内容中的发起句和回复句;根据预设的类型判断规则,确定发起句和回复句的类型;根据发起句以及发起句与下一条发起句之间的回复句提取基础会话对;根据基础会话对、基础会话对中发起句和回复句的类型,提取至少一个会话对。进一步地,根据会话内容中会话句的语义,确定会话内容中的发起句和回复句包括:判断会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文,若无,则将会话句确定为发起句;若有,则判断会话句是否与通讯对方发送的上文无语义关联,若是,则将会话句确定为发起句,否则将会话句确定为回复 ...
【技术保护点】
一种自动建立个人专属语料库的方法,其特征在于,包括:采集通讯方的会话内容;获取所述会话内容中的会话对;根据预设的场景标签,采集获得所述会话对与所述场景标签对应的场景标签值;将所述会话对、所述场景标签以及与所述场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库。
【技术特征摘要】
1.一种自动建立个人专属语料库的方法,其特征在于,包括:采集通讯方的会话内容;获取所述会话内容中的会话对;根据预设的场景标签,采集获得所述会话对与所述场景标签对应的场景标签值;将所述会话对、所述场景标签以及与所述场景标签对应的场景标签值进行匹配组合,从而生成个人专属语料库。2.根据权利要求1所述的自动建立个人专属语料库的方法,其特征在于,获取所述会话内容中的会话对包括:根据所述会话内容中会话句的语义,确定所述会话内容中的发起句和回复句;根据预设的类型判断规则,确定所述发起句和所述回复句的类型;根据所述发起句以及所述发起句与下一条发起句之间的回复句提取基础会话对;根据所述基础会话对、所述基础会话对中发起句和回复句的类型,提取至少一个会话对。3.根据权利要求2所述的自动建立个人专属语料库的方法,其特征在于,根据所述会话内容中会话句的语义,确定所述会话内容中的发起句和回复句包括:判断所述会话内容中的会话句在预设时间区间内是否有通讯对方发送的上文,若无,则将所述会话句确定为发起句;若有,则判断所述会话句是否与所述通讯对方发送的上文无语义关联,若是,则将所述会话句确定为发起句,否则将所述会话句确定为回复句。4.根据权利要求3所述的自动建立个人专属语料库的方法,其特征在于,根据预设的类型判断规则,确定所述发起句的类型包括:判断所述发起句是否为具有完整独立语义的语句,若是,则判断所述发起句是否由多个具有完整独立语义的单句组成,若是,则将所述发起句的类型确定为复句发起句类型,否则为单句发起句类型;若否,则判断所述发起句是否包含具有完整独立语义的单句,若包含,则将所述发起句的类型确定为非标准复句发起句类型,若不包含,则为非标准单句发起句类型;搜索非标准单句发起句类型的所述发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准单句发起句类型的所述发起句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准单句发起句类型的所述发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;搜索非标准复句发起句类型的所述发起句是否有自己的上文和下文连续会话句,若无,则不进行衍生扩展,若有,则进一步判断非标准复句发起句类型的所述发起句是否可与所述自己的上文和下文连续会话句合并成具有完整独立语义的语句,若能,则将非标准复句发起句类型的所述发起句的类型衍生扩展为非标准句群发起句类型,若不能,则不进行衍生扩展;判断单句、复句、非标准单句、非标准复句以及非标准句群类型的所述发起句是否有自己的上文和下文连续会话句,若有,则进一步判断所述发起句是否可与自己的上文和下文连续会话句合并成语义关联的句群,若是,则将所述发起句的类型衍生扩展为句群发起句类型,否则不进行衍生扩展。5.根据权利要求3所述的自动建...
【专利技术属性】
技术研发人员:陈包容,
申请(专利权)人:长沙军鸽软件有限公司,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。