基于离线强化学习的任务型对话方法和系统技术方案

技术编号:37971577 阅读:9 留言:0更新日期:2023-06-30 09:47
本发明专利技术提供一种基于离线强化学习的任务型对话方法和系统,属于智能对话技术领域。方法包括:基于输入的用户语句,利用生成模型生成关于所述用户语句的多个候选回复语句;利用强化学习的价值函数Q

【技术实现步骤摘要】
基于离线强化学习的任务型对话方法和系统


[0001]本专利技术涉及智能对话
,尤其涉及一种基于离线强化学习的任务型对话方法和系统。

技术介绍

[0002]现阶段对话系统最常用的方法是有监督模型的学习方法,通过利用收集的数据训练对话机器人。其中,有监督模型可以分为组合模型和端到端模型。组合模型包含多个有监督模型,各个模型各司其职,比如包含语义理解模型、对话生成模型、对话管理模型等,在特定场景下还包含推荐模型等。端到端模型常用sequence到sequence的模型结构,比如基于transformer结构或attention机制的模型。
[0003]基于有监督模型的学习方法训练出的对话机器人的能力,取决于收集的数据,在任务型对话系统中往往不能保证对话机器人能够完成对话任务。针对此,现有技术提出了一种基于在线强化学习的对话系统。强化学习指的是在智能体与环境不断交互的过程中,通过最大化累积奖励,不断优化策略的过程。强化学习可以通过设定奖励来保证对话机器人完成对话任务,且基于在线强化学习训练出的对话机器人在训练过程中存在随机性和探索性,通过强化学习有可能发现数据中不存在的更优的对话方式或回复。
[0004]但是基于在线强化学习的对话系统存在如下问题:
[0005]在训练过程中,对话机器人需要与环境不断交互,即当对话机器人生成回复后,需要环境生成对应的回复语句。目前在回复语句上,在线强化学习有两种做法,一是自我回复,即对话机器人在训练过程中自己与自己对话,这类方法的缺点是由于没有真实环境的指导,容易出现较大偏差;二是在线回复,即人为或利用现有的对话系统作为环境,与对话机器人进行交互对话,但该类方法的缺点是数据利用率低下、训练效率低下。另外,基于在线强化学习训练语言模型时,可能会导致语言模型产生不可理解的语言,从而导致分布转移。

技术实现思路

[0006]本专利技术提供一种基于离线强化学习的任务型对话方法和系统,用于解决现有技术存在的容易出现较大偏差、数据利用率低下、训练效率低下、甚至发生分布转移的问题。技术方案如下:
[0007]第一方面,本专利技术的实施例提供一种基于离线强化学习的任务型对话方法,包括:
[0008]基于输入的用户语句,利用生成模型生成关于所述用户语句的多个候选回复语句;
[0009]利用强化学习的价值函数Q

function,从多个模板和候选回复语句的组合中,确定最优组合;其中每个组合包括一个模板和一个候选回复语句;
[0010]根据所述最优组合,生成并输出最优回复语句。
[0011]可选地,所述生成模型为GPT

2生成模型,所述GPT

2生成模型通过训练数据训练
得到,所述训练数据包括问答文本。
[0012]可选地,所述利用强化学习的价值函数Q

function,从多个模板和候选回复语句的组合中,确定最优组合,包括:
[0013]利用强化学习的价值函数Q

function,计算每个组合的Q

function值;
[0014]将Q

function值最大的组合确定为最优组合。
[0015]可选地,所述价值函数Q

function通过离线强化学习训练得到;所述离线强化学习包括:
[0016]定义强化学习的必要组件{状态s,行为a,奖励r,状态转移概率p};其中状态s={s
u
,s
c
,s
p
},s
u
表示用户所说的语句,s
c
表示历史对话语句组成的序列,s
p
表示用户给出的价格,行为a={a
u
,a
p
},a
u
表示智能体回复的语句,a
p
表示智能体给出的价格,状态转移概率p用于衡量状态转移概率的分布,状态转移概率p表示为p(s
t+1
|s
t
,a
t
),t表示时间,s
t
表示t时刻的状态,a
t
表示t时刻的行为;
[0017]定义奖励函数r(s,a)=α(A
p

S
p
),其中α为超参数,r(s,a)表示单个时间节点的奖励;
[0018]利用公式计算整个序列的期望奖励,所述整个序列为由不同时刻的s
t
,a
t
组成。
[0019]可选地,所述价值函数Q

function通过离线强化学习算法CQL进行参数更新,其目标函数L(θ)为:
[0020]L(θ)=(Q
θ
(s,a)

Q
target
(s,a))2+αf
θ
[0021]其中,Q
target
(s,a)是目标网络,Q
θ
(s,a)是策略网络,α为超参数,f
θ
为惩罚项,E为期望,E
s
表示对s求期望,E
a
表示对a求期望。
[0022]第二方面,本专利技术的实施例提供一种基于离线强化学习的任务型对话系统,包括:
[0023]第一处理模块,用于基于输入的用户语句,利用生成模型生成关于所述用户语句的多个候选回复语句;
[0024]第二处理模块,用于利用强化学习的价值函数Q

function,从多个模板和候选回复语句的组合中,确定最优组合;其中每个组合包括一个模板和一个候选回复语句;
[0025]第三处理模块,用于根据所述最优组合,生成并输出最优回复语句。
[0026]可选地,所述生成模型为GPT

2生成模型,所述GPT

2生成模型通过训练数据训练得到,所述训练数据包括问答文本。
[0027]可选地,所述第二处理模块包括:
[0028]第一处理子单元,用于利用强化学习的价值函数Q

function,计算每个组合的Q

function值;
[0029]第二处理子单元,用于将Q

function值最大的组合确定为最优组合。
[0030]第三方面,本专利技术的实施例提供一种计算机设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如第一方面所述的基于离线强化学习的任务型对话方法的步骤。
[0031]第四方面,本专利技术的实施例提供一种可读存储介质,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如第一方面所述的基于离线强化学习的任务型对话方法中的步骤。
[0032]本专利技术的上述技术方案的有益效果是:
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于离线强化学习的任务型对话方法,其特征在于,包括:基于输入的用户语句,利用生成模型生成关于所述用户语句的多个候选回复语句;利用强化学习的价值函数Q

function,从多个模板和候选回复语句的组合中,确定最优组合;其中每个组合包括一个模板和一个候选回复语句;根据所述最优组合,生成并输出最优回复语句。2.根据权利要求1所述的方法,其特征在于,所述生成模型为GPT

2生成模型,所述GPT

2生成模型通过训练数据训练得到,所述训练数据包括问答文本。3.根据权利要求1所述的方法,其特征在于,所述利用强化学习的价值函数Q

function,从多个模板和候选回复语句的组合中,确定最优组合,包括:利用强化学习的价值函数Q

function,计算每个组合的Q

function值;将Q

function值最大的组合确定为最优组合。4.根据权利要求1所述的方法,其特征在于,所述价值函数Q

function通过离线强化学习训练得到;所述离线强化学习包括:定义强化学习的必要组件{状态s,行为a,奖励r,状态转移概率p};其中状态s={s
u
,s
c
,s
p
},s
u
表示用户所说的语句,s
c
表示历史对话语句组成的序列,s
p
表示用户给出的价格,行为a={a
u
,a
p
},a
u
表示智能体回复的语句,a
p
表示智能体给出的价格,状态转移概率p用于衡量状态转移概率的分布,状态转移概率p表示为p(s
t+1
|s
t
,a
t
),t表示时间,s
t
表示t时刻的状态,a
t
表示t时刻的行为;定义奖励函数r(s,a)=α(A
p

S
p
),其中α为超参数,r(s,a)表示单个时间节点的奖励...

【专利技术属性】
技术研发人员:熊艺华
申请(专利权)人:重庆特斯联启智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1