马尔可夫决策过程(MDP)
基础定义
MDP 在 MRP 的基础上加入了动作,一个 MDP 模型 M 可以形式化定义为元组 ⟨S, A, P, R, γ⟩:
- 有限状态集合 S={s1, s2, ⋯, sn}
- 有限动作集合 A={a1, a2, ⋯, am}
- 状态转移概率矩阵 P={pij(a)=p(St+1=si∣St=sj, At=a)}m×n×n
- 奖励函数 R:S×A↦R=E(Rt+1∣St=s, At=a)
- 衰减因子 γ∈[0, 1)
决策的过程实质上是通过历史信息选择动作的过程,而决策的策略 πt 可以分为不同的种类进行建模:
策略 |
确定性 |
随机性 |
马尔可夫的 |
πt:st∈S↦at∈A |
πt:⟨at∣st⟩∈S×A↦p(at∣st)∈[0, 1] |
基于历史信息的 |
πt:ht∈H(t)=St×At−1↦at∈A |
πt:⟨at∣ht⟩∈H(t)×A↦p(at∣ht)∈[0, 1] |
不同策略种类的策略空间之间的关系如下所示:
定义静态策略为不随时间而变化的策略,即 ∀ t, πt=π,其中静态的马尔可夫确定性策略被广泛研究:
π∈D:s∈S↦a∈A
另外地,定义静态的马尔可夫随机性策略为:
π∈DA:⟨a∣s⟩∈S×A↦p(a∣s)∈[0, 1]
类似地,定义在某个策略 π 下,在某时刻 t 处于状态 s 获得的回报的数学期望为状态价值函数:
vπ(s)=E(Gt∣St=s)
定义在某个策略 π 下,在某时刻 t 处于状态 s 并且采取了动作 a 获得的回报的数学期望为动作价值函数:
q(s, a∣vπ)=qπ(s, a)=E(Gt∣St=s, At=a)
策略等价性
由于 MDP 的状态转移具有马尔可夫性,因此可以通过构造 π′∈ΠMA 来获得与 π∈ΠHA 相同的价值函数。
π′(at∣st)=pπ′(at∣st)=pπ(at∣st, s0)
通过以上方法构造的马尔可夫随机策略 π′ 满足 pπ′(st, at∣s0)=pπ(st, at∣s0),可以通过归纳法来证明:
pπ′(s0, a0∣s0)=pπ′(a0∣s0)=pπ(a0∣s0, s0)=pπ(s0, a0∣s0)
在 t=0 时等式成立的基础上,假设等式在 t−1 时成立,可得:
pπ(st∣s0)=st−1∑at−1∑pπ(st−1, at−1∣s0)pπ(st∣st−1, at−1, s0)=st−1∑at−1∑pπ′(st−1, at−1∣s0)p(st∣st−1, at−1)=st−1∑at−1∑pπ′(st−1, at−1∣s0)pπ′(st∣st−1, at−1, s0)=pπ′(st∣s0)
进而证明等式在 t 时同样成立:
pπ′(st, at∣s0)=pπ′(at∣st)pπ′(at∣st, s0)pπ(st∣s0)pπ′(st∣s0)=pπ(at∣st, s0)pπ(st∣s0)=pπ(st, at∣s0)
注意到在不同的状态价值函数虽然是不同的形式,但是均为 E(Rt+1+Δt∣St=st) 的线性组合,取 t=0 时:
Eπ(Rt+1∣S0=s0)=st∑at∑Eπ(Rt+1∣St=st, At=at, S0=s0)pπ(st, at∣s0)=st∑at∑R(st, at)pπ(st, at∣s0)
即在已知初始状态或初始状态分布的情况下,任何具有相同 p(st, at∣s0) 的策略 π 拥有相同的价值函数。也就是说,π∈ΠHA 与 π∈ΠMA 在获得状态价值的层面上等价,因此后续只考虑马尔可夫随机策略。
贝尔曼期望方程
考虑在基于历史信息的策略 at∼π(⋅∣ht) 的基础上,将动作价值函数展开为嵌套期望的形式:
qπ(st, at)=E(Gt∣St=st, At=at)=Eht∖stErt+1∼r(⋅∣st, at)Est+1∼p(⋅∣st, at)Eat+1∼π(⋅∣ht+1)Ert+2∼r(⋅∣st+1, at+1)⋯[τ=0∑∞γτrt+τ+1]=Eht∖stErt+1∼r(⋅∣st, at)[rt+1]+γEht∖stEst+1∼p(⋅∣st, at)Eat+1∼π(⋅∣ht+1)Ert+2∼r(⋅∣st+1, at+1)[rt+2]+⋯=R(st, at)+γEht∖stEst+1∼p(⋅∣st, at)Eat+1∼π(⋅∣ht+1)[R(st+1, at+1)]+⋯=τ=0∑∞Eht∖stEst+1∼p(⋅∣st, at)Eat+1∼π(⋅∣ht+1)Est+2∼p(⋅∣st+1, at+1)Eat+2∼π(⋅∣ht+2)⋯[γτR(st+τ, at+τ)]=Eht∖stEst+1∼p(⋅∣st, at)Eat+1∼π(⋅∣ht+1)Est+2∼p(⋅∣st+1, at+1)Eat+2∼π(⋅∣ht+2)⋯[τ=0∑∞γτR(st+τ, at+τ)]
类似地,状态价值函数定义为:
vπ(st)=E(Gt∣St=st)=Eht∖stEat∼π(⋅∣ht)Ert+1∼r(⋅∣st, at)Est+1∼p(⋅∣st, at)Eat+1∼π(⋅∣ht+1)Ert+2∼r(⋅∣st+1, at+1)⋯[τ=0∑∞γτrt+τ+1]=Eht∖stEat∼π(⋅∣ht)Ert+1∼r(⋅∣st, at)[rt+1]+γEht∖stEat∼π(⋅∣ht)Est+1∼p(⋅∣st, at)Eat+1∼π(⋅∣ht+1)Ert+2∼r(⋅∣st+1, at+1)[rt+2]+⋯=Eht∖stEat∼π(⋅∣ht)[R(st, at)]+γEht∖stEat∼π(⋅∣ht)Est+1∼p(⋅∣st, at)Eat+1∼π(⋅∣ht+1)[R(st+1, at+1)]+⋯=τ=0∑∞Eht∖stEat∼π(⋅∣ht)Est+1∼p(⋅∣st, at)Eat+1∼π(⋅∣ht+1)Est+2∼p(⋅∣st+1, at+1)Eat+2∼π(⋅∣ht+2)⋯[γτR(st+τ, at+τ)]=Eht∖stEat∼π(⋅∣ht)Est+1∼p(⋅∣st, at)Eat+1∼π(⋅∣ht+1)Est+2∼p(⋅∣st+1, at+1)Eat+2∼π(⋅∣ht+2)⋯[τ=0∑∞γτR(st+τ, at+τ)]
考虑在静态随机马尔可夫策略 at∼π(⋅∣st)∈DA 下动作、状态价值函数可以简化为:
qπ(st, at)=Est+1∼p(⋅∣st, at)Eat+1∼π(⋅∣st+1)Est+2∼p(⋅∣st+1, at+1)Eat+2∼π(⋅∣st+2)⋯[τ=0∑∞γτR(st+τ, at+τ)]vπ(st)=Eat∼π(⋅∣st)Est+1∼p(⋅∣st, at)Eat+1∼π(⋅∣st+1)Est+2∼p(⋅∣st+1, at+1)Eat+2∼π(⋅∣st+2)⋯[τ=0∑∞γτR(st+τ, at+τ)]
结合二者的定义可以将动作价值函数递归地展开为:
qπ(st, at)= = Est+1∼p(⋅∣st, at)Eat+1∼π(⋅∣st+1)Est+2∼p(⋅∣st+1, at+1)Eat+2∼π(⋅∣st+2)⋯[R(st, at)] +γEst+1∼p(⋅∣st, at)vπ(st+1)Eat+1∼π(⋅∣st+1)Est+2∼p(⋅∣st+1, at+1)Eat+2∼π(⋅∣st+2)⋯[τ=0∑∞γτR(s(t+1)+τ, a(t+1)+τ)]R(st, at)+γEst+1∼p(⋅∣st, at)[vπ(st+1)]=R(st, at)+γst+1∑vπ(st+1)p(st+1∣st, at)
状态价值函数也可以递归地展开为:
vπ(st)=Eat∼π(⋅∣st)qπ(st, at)Est+1∼p(⋅∣st, at)Eat+1∼π(⋅∣st+1)Est+2∼p(⋅∣st+1, at+1)Eat+2∼π(⋅∣st+2)⋯[τ=0∑∞γτR(st+τ, at+τ)]=Eat∼π(⋅∣st)qπ(st, at)=at∑qπ(st, at)π(at∣st)
可以通过以上方程定义贝尔曼期望算子 Lπ:v∈V=Rn↦V:
v=Lπ{v}=a∑q(s, a∣v)π(a∣s)=a∑R(s, a)π(a∣s)+s′∑v(s′)a∑p(s′∣s, a)π(s∣a)=Rπ+γPπv
需要注意的是算子 Lπ 可以保持状态函数的偏序性,即在 v1≤v2 时,满足:
Lπ{v1}=Rπ+γPπv1≤Rπ+γPπv2=Lπ{v2}
贝尔曼最优方程
根据 ΠHA 和 ΠMA 之间的等价性,定义最优状态价值函数 v⋆ 为:
∀ s∈S:v⋆(s)=π∈ΠHAmaxvπ(s)=π∈ΠMAmaxvπ(s)
策略 π⋆ 是最优策略当且仅当 vπ⋆=v⋆。在求解最优状态价值函数 v⋆ 以及最优策略 π⋆ 前先定义算子 L:
L{v}:V↦V=a∈Amaxq(s, a∣v)=a∈Amax{R(s, a)+γs′∈S∑v(s′)p(s′∣s, a)}
通过贝尔曼最优方程 v=L(v) 可以解得一个唯一的最优状态价值函数 v⋆,证明和求解 π⋆ 的过程如下:
- 证明 L{v}=maxπ∈DLπ{v}=maxδ∈DALδ{v}
考虑在静态马尔可夫确定性策略空间 D 下:
π∈DmaxLπ{v}=π∈Dmaxa∈A∑q(s, a∣v)π(a∣s)=a∈Amaxq(s, a∣v)=L{v}
对于以上命题可以很容易地通过构造性方法来进行证明,例如:
π(a∣s)={10a=argmaxa′q(a′, s∣v)a=argmaxa′q(a′, s∣v)
对于一个静态马尔可夫随机性策略 δ∈DA:
Lδ{v}=a∈A∑q(s, a∣v)δ(a∣s)≤a∈A∑δ(a∣s)a′∈Amaxq(s, a′∣v)=a∈A∑δ(a∣s)L{v}=L{v}=π∈DmaxLπ{v}
因此 maxδ∈DALδ{v}≤maxπ∈DLπ{v},同时 D⊂DA,又有 maxδ∈DALδ{v}≥maxπ∈DLπ{v},进而:
L{v}=π∈DmaxLπ{v}=δ∈DAmaxLδ{v}
- 证明 v=L{v}⇒v=v⋆
考虑 v∈V≥L{v} 以及 π∈ΠMA=(π0, π1, ⋯),其中在每个时间步上可以认为 πt∈DA,因此:
v≥L{v}=δ∈DAmaxLδ{v}≥Lπt{v}
由于算子 Lπ 可以保持状态价值函数之间的偏序性,因此可以层层嵌套得到:
v≥Lπ0{v}≥Lπ0{Lπ1{v}}≥⋯≥Lπ0Lπ1⋯LπT{v}=Rπ0+γPπ0Rπ1+⋯+γTt=0∏T−1PπtRπT+γT+1t=0∏TPπtv
因此
v−vπ=v−[Rπ0+γPπ0Rπ1+⋯+γTt=0∏T−1PπtRπT+⋯]≥γT+1t=0∏TPπtv−τ=T∑∞γτ+1t=0∏τPπtRπτ+1⇐∀ T
对以上不等式的右侧的两项的范数进行放缩:
∣∣∣∣∣∣∣∣∣∣∣∣γT+1t=0∏TPπtv∣∣∣∣∣∣∣∣∣∣∣∣≤γT+1t=0∏T∣∣Pπt∣∣⋅∣∣v∣∣≤γT+1∣∣v∣∣∣∣∣∣∣∣∣∣∣∣∣∣τ=T∑∞γτ+1t=0∏τPπtRπτ+1∣∣∣∣∣∣∣∣∣∣∣∣≤τ=T∑∞γτ+1∣∣∣∣∣∣∣∣∣∣∣∣t=0∏τPπtRπτ+1∣∣∣∣∣∣∣∣∣∣∣∣≤τ=T∑∞γτ+1t=0∏τ∣∣Pπt∣∣⋅∣∣Rπτ+1∣∣≤τ=T∑∞γτ+1s, amax∣R(s, a)∣
因此在 T→∞ 时,不等式右侧趋于 0,因此 ∀ vπ∈ΠMA:v≥vπ,进而:
v≥π∈ΠMAmaxvπ=π∈ΠHAmaxvπ=v⋆
通过类似的方法可以证明 v≤L{v}⇒v≤v⋆,结合这两个命题即可得出 v=L{v}⇒v=v⋆。
- 证明方程 v=L(v) 的解存在且唯一
定义距离函数 ρ:V×V↦R=maxs∈S∣v1(s)−v2(s)∣。则 ⟨V, ρ⟩ 是一个完备距离空间。在此基础上,只要证明算子 L 是该空间上的压缩映射即可(巴拿赫不动点定理),对于 v, u∈V 以及 s∈S,令:
a^∈a∈Aargmaxq(s, a∣v)=a∈Aargmax{R(s, a)+γs′∈S∑v(s′)p(s′∣s, a)}
不失一般性地假设 L{v}(s)≤L{u}(s),则:
∣L{v}(s)−L{u}(s)∣ρ(L{v}, L{u})=L{v}(s)−L{u}(s)≤q(s, a^∣v)−q(s, a^∣u)=γs′∈S∑[v(s′)−u(s′)]p(s′∣s, a)≤γs′∈S∑∣∣∣∣∣v(s′)−u(s′)∣∣∣∣∣p(s′∣s, a)≤γs′∈S∑ρ(v, u)p(s′∣s, a)=γρ(v, u)=s∈Smax∣L{v}(s)−L{u}(s)∣≤γρ(v, u)
由此可得算子 L 是 ⟨V, ρ⟩ 空间上的压缩映射,因此方程 v=L(v) 的解存在且唯一。并且通过巴拿赫不动点定理的构造性证明中也可以得到方程 v=L{v} 的解,即 v⋆=limk→∞Lk{v0}。
- 证明总是存在一个静态马尔可夫确定性策略 π∈D 使得 π 是一个最优策略
考虑 π⋆∈argmaxπ∈DLπ{v⋆},根据以上的证明过程,可得:
Lπ⋆{v⋆}=π∈DmaxLπ{v⋆}=L{v⋆}=v⋆
由于贝尔曼期望方程 v=Lπ⋆{v} 的解存在且唯一,因此 vπ⋆=v⋆,即 π⋆ 是最优策略,并且可以构造为:
π⋆(a∣s)={10a=argmaxa′q(a′, s∣v⋆)a=argmaxa′q(a′, s∣v⋆)