论文-Switch-based Active Deep Dyna

2019-12-03  本文已影响0人  魏鹏飞

1. 简称

论文《Switch-based Active Deep Dyna-Q: Efficient Adaptive Planning for Task-Completion Dialogue Policy Learning》简称Switch-DDQ,作者Yuexin Wu(Carnegie Mellon University),经典的对话策略学习论文。

2. 摘要

使用强化学习训练任务完成对话代理通常需要大量真实的用户体验。

Dyna-Q算法通过整合世界模型来扩展Q-learning,从而可以有效地利用世界模型产生的模拟经验来提高训练效率。

然而,Dyna-Q的有效性取决于世界模型的质量--或隐含地取决于Q-learning的预先指定的真实经验与模拟经验的比率。

为此,我们通过集成一个switcher(切换器)来扩展最近提出的Deep Dyna-Q(DDQ)框架,该switcher(切换器)可以自动确定是使用真实体验还是模拟体验进行Q-learning。

此外,我们探索了使用主动学习来提高样本效率,方法是鼓励世界模型在代理尚未(充分)探索的状态-行动空间中生成模拟经验。

我们的结果表明,通过将Switcher主动学习相结合,名为Switch-based Active Deep Dyna-Q(Switch-DDQ)的新框架在模拟和人工评估方面都比DDQ和Q-learning基线有了显著的改善。

3. 核心

Switch-DDQ for dialogue policy learning.

我们在图3中描述了我们的Switch-DDQ流水线。代理由六个模块组成:(1)基于lstm的自然语言理解模块(hakani-Tür et al.。
2016)用于提取用户意图/目标并计算其相关联的槽;(2)状态跟踪器(MRKS、ˇ、IC、́等,2016)用于跟踪对话状态;(3)通过使用当前对话状态的信息来选择下一个动作的对话策略;(4)基于模型的自然语言生成(NLG)模块,其输出自然语言响应(wen et al.。2015);(5)用于基于主动用户目标选择生成模拟用户动作和模拟奖励的世界模型;以及(6)用于选择对话策略训练的数据源(模拟或真实体验)的基于RNN的切换器。图中的实线说明了迭代对话策略培训循环,而虚线显示了培训世界模型和switcher(交换机)时的数据流。

3.1 Direct Reinforcement Learning and Planning
Algorithm 1 Switch-based Active Deep Dyna-Q

通常,在RL设置中,可以将对话策略学习表述为Markov决策过程,可以将任务完成对话视为(状态,动作,奖励)元组的序列。我们采用深度Q网络(DQN)(Mnih等人,2015)来训练对话策略(算法1中的第12行)。直接强化学习和规划都分别使用相同的Q-learning算法使用模拟和真实经验来完成。

具体而言,在每个步骤中,代理都接收状态s并选择要执行到下一个对话回合的动作a。使用基于ε-greedy的探索策略来选择动作a,】其中概率ε被执行为随机动作,否则存在使Q(s,a;θ_Q)函数最大化的动作。函数Q(·)θ_Q参数化的多层感知器(MLP)参数化。然后,代理从环境中观察到奖励r,从真实用户或模拟器中观察到相应的响应a^u,将对话状态更新为s',直到对话结束。

然后将经验(s,a,r,a^u,s')分别存储到用户经验缓冲器B^u或模拟器经验缓冲器B^s中。可以使用存储在缓冲器中的经验来改善函数Q(·)。

在实现中,我们优化参数θ_Q w.r.t。均方损失:
L(\theta_Q)=E_{(s,a,r,s')\sim B^s\cup B^u}[(y-Q(s,a;\theta_Q))] \\ y=r+\gamma \max_{a'}Q'(s',a';\theta_{Q'}) \tag{3.1.1}

其中Q'(·)Q(·)先前版本的副本,并且仅定期更新,而\gamma\in[0,1]是折扣因子。使用反向传播和小批量梯度下降更新Q(·)

3.2 Active Planning based on World Model

在典型的任务完成对话(Schatzmann等,2007)中,用户开始进行对话时会想到一个由多个约束组成的特定目标G。例如,在电影票预订场景中,约束条件可能是剧院的位置,购买票的数量以及电影的名称。用户目标的一个例子是request(theater;numberofpeople=2, moviename=mission impossible),以其自然语言形式表示为“in which theater can I buy two tickets for mission impossible”。尽管对真实体验中的用户目标范围没有明确限制,但是在规划阶段,世界模型可以有选择地生成状态-动作空间中未(完全)由对话代理探索的模拟体验。针对特定的用户目标,以提高样本效率。我们将计划称为主动计划,因为它是主动学习的一种形式。

主动计划的世界模型包括两个部分:(1)用户目标抽样模块,在对话开始时对正确的用户目标进行抽样; (2)响应生成模块,它模仿真实用户与代理的交互以针对每次对话生成用户动作,奖励和用户是否终止对话的决定。

假设有k个不同类别的用户目标。在每个时期,在验证集上估计的每个类别的故障率被表示为f_i,并且用于估计的样本数是n_i。为简单起见,将n_i的求和表示为N=\sum_i n_i。然后,活动采样例程(算法1中的第6行)可以扩展为这里,N是用于引入随机性的高斯分布。汤普森样抽样(Russo et al.。2018)算法2的子例程受到两个观察结果的推动:(1)平均而言,故障率f_i较大的类别更可取,因为它们基于代理策略的当前性能注入更困难的情况(包含更多要学习的有用信息)。
生成的数据(模拟经验)通常与最快的学习方向相关,可以前瞻性地提高训练速度;(2)估计不太可靠的类别(由于n_i值较小)可能具有较大的实际失败率,因此值得分配更多的训练实例以减少不确定性。\sqrt(\frac{klnN}{n_i})f_i的不确定性的度量,在高斯中起到方差的作用。
因此,即使失败率很小,仍有可能选择具有高不确定性的类别。

3.3 Switcher

在培训的每个步骤中,切换者都需要决定是否应使用模拟或真实经验来培训对话代理(算法1中的8-9行)。
切换器基于使用长短期记忆(LSTM)模型实现的二进制分类器(Hochreiter和Schmidhuber 1997)。假设对话表示为一系列对话转弯,由{(si,ai,ri)}表示,i = 1,...,N,其中N是对话的对话转弯数。 Q学习采用(s,a,r,s')形式的元组作为训练样本,可以从对话中两个连续的对话回合中提取。现在,切换台的设计选择是分类器是基于回合还是基于对话。为了提高数据效率,我们选择了前者,尽管有点违反直觉。匝数比对数大一个数量级。结果,与基于对话的分类器相比,可以更可靠地训练基于回合的分类器。然后,给定一个对话,我们对它的每个对话转弯的质量进行评分,然后对这些得分取平均值,以测量对话的质量(算法1中的第6行)。如果对话级别分数低于某个阈值,则代理将切换为与真实用户进行交互。

请注意,每次对话回合都是通过在同一对话框中考虑之前的回合来计分的。给定对话回合(s_t,a_t,r_t)及其历史h =((s_1,a_1,r_1),(s_2,a_2,r_2),...,(s_{t-1},a_{t-1},r_{t-1}))我们使用LSTM使用隐藏状态向量对h进行编码,然后通过S型层输出回合质量得分:

Score((s,a,r),h;\theta)=sigmoid(LSTM((s,a,r),h;\theta))\tag{3.3.1}

由于我们分别将用户体验和模拟体验存储在缓冲区B^uB^s中(算法1中的第4、7行),因此Score(.)的训练遵循与最小化交叉熵损失相同的过程。使用小批次的常见领域对抗训练设置(Ganin等,2016):

\min_{\theta_S}E_{(s,a,r),h\simB^u}log(Score((s,a,r),h;\theta))+E_{(s,a,r),h\simB^s}log(1-Score((s,a,r),h;\theta))\tag{3.3.2}

由于在对话训练过程中B^sB^u中存储的经验会发生变化,因此switcher(切换器)的评分功能会相应更新,从而自动调整在训练的不同阶段要执行多少计划。

4. 实验与结果

我们在电影票预订域中以两种设置评估拟议的Switch-DDQ框架:模拟和人工评估。

4.1 Dataset

对于实验,我们使用电影票预订数据集,其中包含通过Amazon Mechanical Turk收集的原始会话数据。基于域专家定义的架构手动标记数据集。如表1所示,注释架构包含11个意图和16个插槽。数据集总共包含280个标记为对话的对话,平均长度为11轮。


The data annotation schema
4.2 Baseline

我们将Switch-DDQ代理的有效性与几个基准进行了比较:

4.3 Implementation Details
4.4 Simulation Evaluation
Simulation Evaluation Result

我们通过模拟座席和编程良好的用户模拟器(而不是真实用户)之间的交互来训练对话座席。也就是说,我们训练世界模型来模仿用户模拟器的行为。

image.png
4.5 Human Evaluation

真实用户被招募来与不同的代理进行交互,而代理系统的身份对用户是隐藏的。
在对话会话开始时,向用户提供随机采样的用户目标,并随机选择其中一个代理与用户交谈。

如果用户发现对话进行了如此多次的轮换,以致不太可能达到有希望的结果,则可以在任何时候终止对话会话。这样的对话在我们的实验中被认为是失败的。

选择三个代理(DQNDDQ(5)Switch-DDQ),如前所述(图4)在时期150处训练,用于人工评估。3如图8所示,人工评估的结果与模拟评估中的结果一致。

Human evaluation results

我们发现DQN更多地被用户抛弃,因为它花费了太多的对话轮次(表2),导致了非常严重的性能下降,并且所提出的Switch-DDQ的性能优于所有其他代理。

5. 结论

提出了一种新的基于Switch-based Active Deep Dyna-Q(Switch-DDQ)的任务完成对话策略学习框架。

通过引入切换器,Switch-DDQ能够自适应地从真实用户或世界模型中选择合适的数据源,提高对话策略学习的效率和鲁棒性。

此外,主动用户目标采样策略提供了比以前的DDQ更好的对世界模型的利用,并提高了训练的性能。

通过模拟实验和人工评估来验证Switch-DDQ在电影票预订任务中的有效性,我们表明Switch-DDQ代理的性能优于其他最先进的方法训练的代理,包括DQNDDQ

Switch-DDQ可以被视为一种通用的基于模型的RL方法,并且很容易扩展到其他RL问题。

6. 重点论文

  1. [Sutton 1990] Sutton, R. S. 1990. Integrated architectures for learning, planning, and reacting based on approximating dynamic programming. In Machine Learning Proceedings 1990. Elsevier. 216–224.
  2. [Su et al. 2018] Su, S.-Y.; Li, X.; Gao, J.; Liu, J.; and Chen, Y.-N. 2018. Discriminative deep dyna-q: Ro- bust planning for dialogue policy learning. arXiv preprint arXiv:1808.09442.
  3. [Hakkani-Tu ̈r et al. 2016] Hakkani-Tu ̈r, D.; Tu ̈r, G.; Celiky- ilmaz, A.; Chen, Y.-N.; Gao, J.; Deng, L.; and Wang, Y.-Y. 2016. Multi-domain joint semantic frame parsing using bi- directional rnn-lstm. In Interspeech, 715–719.
  4. [Mrksˇic ́ et al. 2016] Mrksˇic ́, N.; Se ́aghdha, D. O.; Wen, T.- H.; Thomson, B.; and Young, S. 2016. Neural belief tracker: Data-driven dialogue state tracking. arXiv preprint arXiv:1606.03777.
  5. [Wen et al. 2015] Wen, T.-H.; Gasic, M.; Mrksic, N.; Su, P.- H.; Vandyke, D.; and Young, S. 2015. Semantically con- ditioned lstm-based natural language generation for spoken dialogue systems. arXiv preprint arXiv:1508.01745.
  6. [Mnih et al. 2015] Mnih, V.; Kavukcuoglu, K.; Silver, D.; Rusu, A. A.; Veness, J.; Bellemare, M. G.; Graves, A.; Ried- miller, M. A.; Fidjeland, A.; Ostrovski, G.; Petersen, S.; Beattie, C.; Sadik, A.; Antonoglou, I.; King, H.; Kumaran, D.; Wierstra, D.; Legg, S.; and Hassabis, D. 2015. Human- level control through deep reinforcement learning. Nature 518(7540):529–533.

7. 代码编写

本文相关链接:https://github.com/CrickWu/Switch-DDQ

# 后续追加代码分析

参考文献

  1. Wu, Y., Li, X., Liu, J., Gao, J., & Yang, Y. (2019). Switch-Based Active Deep Dyna-Q - Efficient Adaptive Planning for Task-Completion Dialogue Policy Learning. Aaai.
上一篇下一篇

猜你喜欢

热点阅读