基于离线强化学习的任务型对话方法和系统技术方案

技术编号：37971577 阅读：9 留言：0更新日期：2023-06-30 09:47

本发明专利技术提供一种基于离线强化学习的任务型对话方法和系统，属于智能对话技术领域。方法包括：基于输入的用户语句，利用生成模型生成关于所述用户语句的多个候选回复语句；利用强化学习的价值函数Q

全部详细技术资料下载

【技术实现步骤摘要】
基于离线强化学习的任务型对话方法和系统

[0001]本专利技术涉及智能对话
，尤其涉及一种基于离线强化学习的任务型对话方法和系统。

技术介绍

[0002]现阶段对话系统最常用的方法是有监督模型的学习方法，通过利用收集的数据训练对话机器人。其中，有监督模型可以分为组合模型和端到端模型。组合模型包含多个有监督模型，各个模型各司其职，比如包含语义理解模型、对话生成模型、对话管理模型等，在特定场景下还包含推荐模型等。端到端模型常用sequence到sequence的模型结构，比如基于transformer结构或attention机制的模型。
[0003]基于有监督模型的学习方法训练出的对话机器人的能力，取决于收集的数据，在任务型对话系统中往往不能保证对话机器人能够完成对话任务。针对此，现有技术提出了一种基于在线强化学习的对话系统。强化学习指的是在智能体与环境不断交互的过程中，通过最大化累积奖励，不断优化策略的过程。强化学习可以通过设定奖励来保证对话机器人完成对话任务，且基于在线强化学习训练出的对话机器人在训练过程中存在随机性和探索性，通过强化学习有可能发现数据中不存在的更优的对话方式或回复。
[0004]但是基于在线强化学习的对话系统存在如下问题：
[0005]在训练过程中，对话机器人需要与环境不断交互，即当对话机器人生成回复后，需要环境生成对应的回复语句。目前在回复语句上，在线强化学习有两种做法，一是自我回复，即对话机器人在训练过程中自己与自己对话，这类方法的缺点是由于没有真实环境的指导，容易...

【技术保护点】

【技术特征摘要】
1.一种基于离线强化学习的任务型对话方法，其特征在于，包括：基于输入的用户语句，利用生成模型生成关于所述用户语句的多个候选回复语句；利用强化学习的价值函数Q
‑
function，从多个模板和候选回复语句的组合中，确定最优组合；其中每个组合包括一个模板和一个候选回复语句；根据所述最优组合，生成并输出最优回复语句。2.根据权利要求1所述的方法，其特征在于，所述生成模型为GPT
‑
2生成模型，所述GPT
‑
2生成模型通过训练数据训练得到，所述训练数据包括问答文本。3.根据权利要求1所述的方法，其特征在于，所述利用强化学习的价值函数Q
‑
function，从多个模板和候选回复语句的组合中，确定最优组合，包括：利用强化学习的价值函数Q
‑
function，计算每个组合的Q
‑
function值；将Q
‑
function值最大的组合确定为最优组合。4.根据权利要求1所述的方法，其特征在于，所述价值函数Q
‑
function通过离线强化学习训练得到；所述离线强化学习包括：定义强化学习的必要组件{状态s，行为a，奖励r，状态转移概率p}；其中状态s＝{s
u
，s
c
，s
p
}，s
u
表示用户所说的语句，s
c
表示历史对话语句组成的序列，s
p
表示用户给出的价格，行为a＝{a
u
，a
p
}，a
u
表示智能体回复的语句，a
p
表示智能体给出的价格，状态转移概率p用于衡量状态转移概率的分布，状态转移概率p表示为p(s
t+1
|s
t
,a
t
)，t表示时间，s
t
表示t时刻的状态，a
t
表示t时刻的行为；定义奖励函数r(s,a)＝α(A
p
‑
S
p
)，其中α为超参数，r(s,a)表示单个时间节点的奖励...

【专利技术属性】
技术研发人员：熊艺华，
申请(专利权)人：重庆特斯联启智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人