【RL第五篇】信赖域策略优化-Trust Region Policy Optimization（TRPO）

所以可以得到：
$mathbb{E}_{s_0, a_0, ldots sim tilde{pi}} left[ sum_{t=0}^{infty} gamma^t A_{pi}(s_t, a_t) right] &= mathbb{E}_{s_0, a_0, ldots sim tilde{pi}} left[ sum_{t=0}^{infty} gamma^t left( Q_{pi}(s_t, a_t) – V_{pi}(s_t) right) right] &= mathbb{E}_{s_0, a_0, ldots sim tilde{pi}} left[ sum_{t=0}^{infty} gamma^t left( r(s_t) + gamma V_{pi}(s_{t+1}) – V_{pi}(s_t) right) right] &= mathbb{E}_{s_0, a_0, ldots sim tilde{pi}} left[ -V_{pi}(s_0) + sum_{t=0}^{infty} gamma^t r(s_t) right] end{align*}$
根据新旧策略的初始状态是一致的（因为新状态是由旧状态一步步更新的，初始是一样的），则

$mathbb{E}_{s_0, a_0, ldots sim tilde{pi}} left[ -V_{pi}(s_0)right] = -mathbb{E}_{s_0} left[ V_{pi}(s_0) right]$

所以可以得到：
$mathbb{E}_{s_0, a_0, ldots sim tilde{pi}} left[ sum_{t=0}^{infty} gamma^t A_{pi}(s_t, a_t) right] &= -mathbb{E}_{s_0} left[ V_{pi}(s_0) right] + mathbb{E}_{s_0, a_0, ldots sim tilde{pi}} left[ sum_{t=0}^{infty} gamma^t r(s_t) right] &= -J(pi) + J(tilde{pi}) end{align*}$

最终得到新旧策略的关系等式：

$mathbb{E}_{s_0,a_0,ldots sim tilde{pi}} bigg[ sum_{t=0}^{infty} gamma^t A_pi(s_t, a_t) bigg] tag{3.1}$

其中 $Aπ(st,at)A_pi(s_t, a_t)$ 为优势函数， $Aπ(st,at)=Qπ(st,at)−Vπ(st)A_pi(s_t, a_t) = Q_pi(s_t, a_t) – V_pi(s_t)$ 。

直观理解：新策略 $\tilde{π}$ 的回报期望 = 原策略 $π$ 的回报期望 + 采用 $新策略 \tilde{π}$ 采样的轨迹中 “优势” 的期望总和（优势为正，新策略更好），此时的优势计算是基于旧策略 $π$ 计算估计的。

对期望做展开
$sum_{t=0}^{infty} sum_{s} p(s_t = s vert tilde{pi}) sum_{a} tilde{pi}(a vert s) gamma^t A_pi(s, a) &= J(pi) + sum_{s} sum_{t=0}^{infty} gamma^t p(s_t = s vert tilde{pi}) sum_{a} tilde{pi}(a vert s) A_pi(s, a) end{align*}$

定义 $ρπ~rho_{tilde{pi}}$ 是折扣状态访问频率：

$rho_{pi}(s) = p(s_0 = s) + gamma p(s_1 = s) + gamma^2 p(s_2 = s) + ldots$

则可以表示为：
$sum_{s} rho_{tilde{pi}}(s) sum_{a} tilde{pi}(a vert s) A_pi(s, a)$

3.2 局部近似

对于RL任务就是对 $J (\tilde{π})$ 求梯度， $J (π)$ 对于 $\tilde{π}$ 一节求导为0，有关于优势函数的式子中有两处与 $\tilde{π}$ 相关，状态需要新策略，状态与动作的映射也是新策略，这会让优化比较麻烦，所以有了以下的操作：

用 “原策略 $π$ 的状态分布$
rho_{pi}(s) $” 替代 “ 新策略$ tilde{pi}$ 的状态分布 $ρπ~(s)rho_{tilde{pi}}(s)$ “ 得到 $J (\tilde{π})$ 的局部近似值 $Lπ(π~)L_pi(tilde{pi})$ ，可以得到：

$L_pi(tilde{pi}) = J(pi) + sum_{s} rho_{{pi}}(s) sum_{a} tilde{pi}(a vert s) A_pi(s, a)$

这个近似是在一阶导数的局部近似，所以可以得出，在一个区域内 $Lπ(π~)L_pi(tilde{pi})$ 梯度等于 $ρπ(s)rho_{pi}(s)$ 的梯度， $Lπ(π~)L_pi(tilde{pi})$ 的值等于 $ρπ(s)rho_{pi}(s)$ ，这意味着变化趋势和大小一致，所以可以近似的认为在一个区域内，优化 $Lπ(π~)L_pi(tilde{pi})$ 等价于优化 $ρπ(s)rho_{pi}(s)$ ：

如果我们假定这个区域内有一个点为 $θ0theta_0$ ，则有以下等式：

$L_{pi_{theta_0}}(pi_{theta_0}) = J(pi_{theta_0})$

$nabla_theta L_{pi_{theta_0}}(pi_theta) right|_{theta=theta_0} = left. nabla_theta J(pi_theta) right|_{theta=theta_0}$

3.2.1 值近似

证明：

$L_{pi_{theta_0}}(pi_{theta_0}) = J(pi_{theta_0})$

当 $\tilde{π} = π$ 时，替代损失变为：
$L_pi(pi) = J(pi) + sum_s rho_pi(s) sum_a pi(a|s) A_pi(s,a)$

需要证明额外项 $∑sρπ(s)∑aπ(a∣s)Aπ(s,a)=0sum_s rho_pi(s) sum_a pi(a|s) A_pi(s,a) = 0$ ，即 “优势函数在策略 $π$ 下的加权平均为 0”

我们需要以下几点

（1）. 转换为期望

$sum_a pi(a|s) A_pi(s,a) = mathbb{E}_{a sim pi(cdot|s)} left[ A_pi(s,a) right]$

（2）. 优势函数分解

$mathbb{E}_a left[ A_pi(s,a) right] = mathbb{E}_a left[ Q_pi(s,a) – V_pi(s) right]$

（3）. 通过价值函数和Q函数之间的关系

$V_pi(s) = mathbb{E}_a left[ Q_pi(s,a) right]$
可以得到：
$mathbb{E}_a left[ Q_pi(s,a) – mathbb{E}_a left[ Q_pi(s,a) right] right]$

（4）. 期望的期望等于自身

$mathbb{E}_a left[ Q_pi(s,a) right] – mathbb{E}_a left[ mathbb{E}_a left[ Q_pi(s,a) right] right] = mathbb{E}_a left[ Q_pi(s,a) right] – mathbb{E}_a left[ Q_pi(s,a) right] = 0$

故证明 $∑sρπ(s)∑aπ(a∣s)Aπ(s,a)=0sum_s rho_pi(s) sum_a pi(a|s) A_pi(s,a) = 0$
则可以得出：

$L_pi(pi) = J(pi) + 0 = J(pi)$

3.2.2 梯度近似

证明：
$nabla_theta L_{pi_{theta_0}}(pi_theta) right|_{theta=theta_0} = left. nabla_theta right|_{theta=theta_0}$

对于 $Lπ(π)L_{pi}(pi)$ 为：
$L_{pi_{theta_0}}(pi_theta) = J(pi_{theta_0}) + sum_s rho_{pi_{theta_0}}(s) sum_a pi_theta(a|s) A_{pi_{theta_0}}(s, a)$

（1）. 对 $θ$ 求导

$nabla_theta L_{pi_{theta_0}}(pi_theta) = sum_s rho_{pi_{theta_0}}(s) sum_a nabla_theta pi_theta(a|s) A_{pi_{theta_0}}(s, a)$

其中 $J(πθ0)J(pi_{theta_0})$ 与 $θ$ 无关，所以导数为0。

（2）. 代入 $theta_0$

得到 $Lπθ0(πθ)L_{pi_{theta_0}}(pi_theta)$ 在 $theta_0$ 处的导数。

$nabla_theta L_{pi_{theta_0}}(pi_theta) right|_{theta = theta_0} = sum_s rho_{pi_{theta_0}}(s) sum_a left. nabla_theta pi_theta(a|s) right|_{theta = theta_0} A_{pi_{theta_0}}(s, a)$

（3）. 引入 $∇θJ(πθ)nabla_theta J(pi_theta)$ ，

通过
$L_{pi_{theta_0}}(pi_{theta_0}) = J(pi_{theta_0})$
等式可以得到：
$nabla_theta J(pi_theta) = sum_s rho_{pi_theta}(s) sum_a nabla_theta pi_theta(a|s) Q_{pi_theta}(s, a)$

（4）. 化简 $∇θJ(πθ)nabla_theta J(pi_theta)$

$sum_s rho_{pi_theta}(s) sum_a nabla_theta pi_theta(a|s) V_{pi_theta}(s) &= sum_s rho_{pi_theta}(s) V_{pi_theta}(s) sum_a nabla_theta pi_theta(a|s) &= sum_s rho_{pi_theta}(s) V_{pi_theta}(s) nabla_theta sum_a pi_theta(a|s) &= 0 end{aligned}$
这里的推导依据是：

$Vπθ(s)V_{pi_theta}(s)$ 与 $a$ 无关，所以可以提出来。
求和的导数等于导数的求和，即 $∇θ∑aπθ(a∣s)=∑a∇θπθ(a∣s)nabla_theta sum_a pi_theta(a|s) = sum_a nabla_theta pi_theta(a|s)$ 。
对于每个 $s$ 来说， $∑aπθ(a∣s)=1sum_a pi_theta(a|s) = 1$ ，因此 $∇θ∑aπθ(a∣s)=∇θ1=0nabla_theta sum_a pi_theta(a|s) = nabla_theta 1 = 0$ 。

（5）. 推导 $J(πθ)J(pi_theta)$ 的导数

$nabla_theta J(pi_theta) &= sum_s rho_{pi_theta}(s) sum_a nabla_theta pi_theta(a|s) Q_{pi_theta}(s, a) &= sum_s rho_{pi_theta}(s) sum_a nabla_theta pi_theta(a|s) left[ Q_{pi_theta}(s, a) – V_{pi_theta}(s) right] &= sum_s rho_{pi_theta}(s) sum_a nabla_theta pi_theta(a|s) A_{pi_theta}(s, a) end{aligned}$
第二步是引入了4推导的结果，直接减去一个0值。

（6）. $J(πθ)J(pi_theta)$ 导数代入 $theta_0$

$nabla_theta J(pi_theta) right|_{theta = theta_0} = sum_s rho_{pi_{theta_0}}(s) sum_a left. nabla_theta pi_theta(a|s) right|_{theta = theta_0} A_{pi_{theta_0}}(s, a)$

和2步的式子完全一致，则可以推导出：
$nabla_theta L_{pi_{theta_0}}(pi_theta) right|_{theta=theta_0} = left. nabla_theta right|_{theta=theta_0}$

3.3 信赖域

虽然可以说明在一个范围内，近似求解，但范围的大小是无法确定的，而这个区域就是信赖域，可以理解为在这个区域内更新是可以信赖的，是持续优化的。

对于信赖域可以以爬山举例：

线搜索就对应梯度上升和下降，而信赖域是对下一步的更新圈定一个范围。

2002 年，Kakade & Langford 提出了一种称为保守策略迭代的策略更新方案，他们可以为 J 的改进提供明确的下限。该界限在实践中具有限制性。

paper：https://people.eecs.berkeley.edu/~pabbeel/cs287-fa09/readings/KakadeLangford-icml2002.pdf

本文修改了提出的下界，修改后的下界为：
$L_{pi}(tilde{pi}) – C D_{mathrm{KL}}^{max}(pi, tilde{pi}),$

其中 KL散度就代表参数更新的信赖空间（信赖域）

$gamma)^2}.$

$D_{mathrm{KL}}^{max}(pi, tilde{pi}) = max_s D_{mathrm{KL}}(pi(cdot mid s) parallel tilde{pi}(cdot mid s))$

下届理解可以看这个图：

from：https://jonathan-hui.medium.com/rl-trust-region-policy-optimization-trpo-part-2-f51e3b2e373a

如何保证基于下限的近似策略迭代方案生成单调改进的策略序列：
$J(pi_0) leq J(pi_1) leq J(pi_2) leq dots$

如果你能保证单调改进，则能保证目标函数持续提升。

通过近似策略迭代方案来解决这个问题：

四、TRPO

TRPO是近似策略迭代方案的一种优化

4.1 更新步长很小

受惩罚系数C影响，更新步长会很小，优化速度会非常慢。

由于 $πθpi_theta$ 本身是基于 $θ$ 参数的策略，所以可以统一同 $θ$ 表示策略，则目标可以表示为最大化：

$max_{theta} left[ L_{theta_{old}}(theta) – C D_{text{KL}}^{text{max}}(theta_{old}, theta) right]$

对于更新步数很小这个问题，可以通过KL散度作为惩罚项的极值问题，转化为KL散度作为约束条件的优化问题，将KL散度从公式中取出作为条件：
$max_{theta} L_{theta_{text{old}}}(theta)$

$D_{mathrm{KL}}^{max}(theta_{text{old}}, theta) leq delta$

相当于在以 $θ0theta_0$ 为球（圆）心的，以炒参数 $δ$ 为半径的信赖域中更新参数可以提高 $Lπold(π)L_{pi_{old}}(pi)$ （由前面的近似可以等价于提高 $J (π)$ ）的策略 $π$

$LπL_pi$ 为：

$L_pi(tilde{pi}) = J(pi) + sum_{s} rho_{{pi}}(s) sum_{a} tilde{pi}(a vert s) A_pi(s, a)$

用 $θ$ 替换：

$L_{theta_{old}}(theta) = J(theta_{old}) + sum_{s} rho_{theta_{old}}(s) sum_{a} pi_{theta}(a|s) A_{theta_{old}}(s,a)$

其中 $J(θold)J(theta_{old})$ 与 $θ$ 无关，可以去掉，得到最终的目标函数：

$sum_{s} rho_{theta_{old}} (s)sum_{a} pi_{theta}(a|s) A_{theta_{old}}(s,a) &text{subject to } D_{KL}^{max}(theta_{old}, theta) leq delta end{aligned}$

4.2 重要性采样

目标函数的s映射a都是从新策略中采样的，但是新策略都是未知的，需要更新参数后才能得到，所以这里需要重要性采样，通过采样旧采样策略：

$sum_{s} rho_{theta_{text{old}}}(s) sum_{a} pi_theta(a|s) A_{theta_{old}} (s, a) &= sum_{s} rho_{theta_{text{old}}}(s) sum_{a} q(a|s) frac{pi_{theta}(a|s)}{q(a|s)} A_{theta_{text{old}}}(s, a) &= sum_{s} rho_{theta_{text{old}}}(s) mathbb{E}_{a sim q} left[ frac{pi_{theta}(a|s)}{q(a|s)} A_{theta_{text{old}}}(s, a) right] &= mathbb{E}_{s sim rho_{theta_{text{old}}}, a sim q} left[ A_{theta_{text{old}}}(s, a) right] end{aligned}$

Ref

https://jonathan-hui.medium.com/rl-trust-region-policy-optimization-trpo-explained-a6ee04eeeee9
https://jonathan-hui.medium.com/rl-trust-region-policy-optimization-trpo-part-2-f51e3b2e373a
https://medium.com/@hsinhungw/trust-region-policy-optimization-explained-c2671542c329
https://www.cnblogs.com/xingzheai/p/16565686.html
https://zhuanlan.zhihu.com/p/605886935

文章来源于互联网:【RL第五篇】信赖域策略优化-Trust Region Policy Optimization（TRPO）

相关推荐: 【AIGC学习】一文带你了解AIGC基础知识（适用于AI入门小白）

▌导读前言人工智能生成内容（AIGC）正以前所未有的速度改变着我们的生活。你是否也对这项技术充满好奇，却苦于无从下手？本指南专为 AI 入门小白打造，用通俗易懂的语言带你快速了解 AIGC 的核心概念、应用场景和发展趋势。无需任何技术背景，只需一颗探索的心…

【RL第五篇】信赖域策略优化-Trust Region Policy Optimization（TRPO）

一、前言

二、策略梯度学习步长