🔗 [Microsoft PowerPoint - mdp.ppt]
预期贴现总和 / expected discounted sum
隐马尔可夫模型 / HMM 的基本概念
✪ 基本概念:李航统计学习方法 p193开始

注:“观测概率矩阵[mathjax]B[/mathjax]”的英文名称是emission probabilities,很多中文材料会翻译为“发射概率”。
✪ (如果这个pdf复习不懂,就重新去看书)
✪ 通过这个例子来入门理解HMM的应用:(没有实际题目)
✪ HMM的3个基本问题

马尔可夫决策 / Markov Decision Process 基本概念
✪ wikipedia的例子(奖励绑定动作)
🔗 [马尔可夫决策过程 - 维基百科,自由的百科全书]馬可夫決策過程

在MDP开始之前,有[mathjax]P_{a}\left(s, s^{\prime}\right)=\operatorname{Pr}\left(s_{t+1}=s^{\prime} \mid s_{t}=s, a_{t}=a\right)[/mathjax],代表是[mathjax]t[/mathjax]时刻[mathjax]s[/mathjax]状态下的动作[mathjax]a[/mathjax]导致[mathjax]t+1[/mathjax]时刻进入状态[mathjax]s'[/mathjax]的概率。
在MDP开始以后,原先的[mathjax]P_{a}\left(s, s^{\prime}\right)=\operatorname{Pr}\left(s_{t+1}=s^{\prime} \mid s_{t}=s, a_{t}=a\right)[/mathjax]就会变成[mathjax]\operatorname{Pr}\left(s_{t+1}=s^{\prime} \mid s_{t}=s\right)[/mathjax]. 比如:从[mathjax]S_2[/mathjax]出发到[mathjax]S_0[/mathjax],原本可以经过动作[mathjax]a_1[/mathjax]或者[mathjax]a_0[/mathjax],但现在只有1种固定的途径,因为[mathjax]\pi(s)[/mathjax]决定了状态[mathjax]s[/mathjax]的动作。所以MDP的目标就是找到一个策略[mathjax]\pi[/mathjax],在状态为[mathjax]s[/mathjax]的时候为这个状态指定一个动作[mathjax]\pi(s)[/mathjax] . 这个策略[mathjax]\pi[/mathjax]的目的就是让随机奖励的累积函数最大化,通常是在潜在的无限范围内的预期贴现总和:[mathjax]E\left[\sum\limits_{t=0}^{\infty} \gamma^{t} R_{a_{t}}\left(s_{t}, s_{t+1}\right)\right][/mathjax] . 解释:从状态[mathjax]s_t[/mathjax]到状态[mathjax]s_{t+1}[/mathjax],策略[mathjax]\pi(s)[/mathjax]规定了执行动作[mathjax]a[/mathjax],所以这个转移步骤对应了奖励[mathjax]R_{a_{t}}(s_t,s_{t+1})[/mathjax] . 如果[mathjax]s_t[/mathjax]是已经确定的,那么有且只有一种可能的奖励值[mathjax]R_{a_{t}}(s_t,s_{t+1})[/mathjax]. 再考虑折现因子[mathjax]\gamma[/mathjax]的影响,把每一步的奖励进行累加,就可以得到随机奖励的累积函数。 如果[mathjax]\gamma[/mathjax]比较低,就会促使决策者倾向于尽早采取行动,而不是无限期地推迟行动。(见本文开头的预期贴现总和)
马尔可夫决策 计算方法
✪ 奖励绑定状态

✪ 递推公式
首先是之前出现的:[mathjax]E\left[\sum\limits_{t=0}^{\infty} \gamma^{t} R_{a_{t}}\left(s_{t}, s_{t+1}\right)\right][/mathjax],将它进行修改:
从状态[mathjax]S_i[/mathjax]开始计算,首先它拥有一个奖励(因为“奖励绑定状态”),然后它需要转移到下一个状态[mathjax]S_j[/mathjax]上:这个[mathjax]S_j[/mathjax]有可能是[mathjax]\left\{S_{1},\ S_{2}, \cdots ,\ S_{N}\right\}[/mathjax]中的任意一个(包括自己),每一个可能的[mathjax]S_j[/mathjax]都对应一个转移概率(转移矩阵中的一行),但是在计算的时候需要乘以折现因子:
[mathjax-d]\displaylines{\mathrm{J}^{*}\left(\mathrm{~S}_{j}\right)=r_{i}+\gamma \mathbf{x} \cr \mathbf{x}:\text{ Expected future rewards starting from your next state}}[/mathjax-d]也就是:
[mathjax-d]\mathrm{J}^*(\mathrm{S}_i)=r_i+\gamma (P_{i1}\mathrm{J}^*(\mathrm{S}_1^{\prime})+P_{i2}\mathrm{J}^*(\mathrm{S}_2^{\prime})+\ \cdots \ P_{iN}\mathrm{J}^*(\mathrm{S}_N^{\prime}))[/mathjax-d](在这里[mathjax]\mathrm{S}^{\prime}[/mathjax]表示状态[mathjax]\mathrm{S}[/mathjax]的下一次转移状态)
✪ 暂停一下
[mathjax-d]\arg \max _{k}\left[r_{i}+\gamma \sum_{j} \mathrm{P}_{i j}^{k} \mathrm{~J}^{*}\left(\mathrm{~S}_{j}\right)\right][/mathjax-d]事实上[mathjax]P^k_{ij}[/mathjax]代表的是“多个马尔可夫状态转移表中的一个”,也就是一个决策:从状态[mathjax]\mathrm{S}[/mathjax]出发,可能会有不止1个决策,每个决策都分别对应了转移概率矩阵[mathjax]\boldsymbol{P}[/mathjax]中的一行。
✪ 参考资料
来源:🔗 [Microsoft PowerPoint - mdp.ppt]
但要注意,Slide 16似乎有一个地方写错了
Moore Markoy Syatemrs: slide 6—隐马尔可夫模型由初始状态概率向量丌、状态转移概率矩阵A和观测概率矩阵B决定。元和A决定状态序列,B决定观测序列。因此,隐马尔可夫模型入可以用三元符号表示,即入=(A, B,T) (10.7) A,B,元称为隐马尔可夫模型的三要素。状态转移概率矩阵A与初始状态概率向量『确定了隐藏的马尔可夫链,生成不可观测的状态序列。观测概率矩阵B确定了如何从状态生成观测,与状态序列综合确定了如何产生观测序列。10.1隐马尔可夫模型的基本概念195隐马尔可夫模型可以用于标注,这时状态对应着标记。标注问题是给定观测的序列预测其对应的标记序列。可以假设标注问题的数据是由隐马尔可夫模型生成的。这样我们可以利用隐马尔可夫模型的学习与预测算法进行标注。下面看一个隐马尔可夫模型的例子。例10.1(盒子和球模型)假设有4个盒子,每个盒子里都装有红、白两种颜色的球,盒子里的红、白球数由表10.1列出。表10.1各盒子的红、白球数盒子1 2 3红球数5 6白球数5 4 2按照下面的方法抽球,产生一个球的颜色的观测序列: •开始,从4个盒子里以等概率随机选取1个盒子,从这个盒子里随机抽出1个球,记录其颜色后,放回: 。然后,从当前盒子随机转移到下一个盒子,规则是:如果当前盒子是盒子1,那么下一盒子一定是盒子2:如果当前是盒子2或3,那么分别以概率0.4和0.6转移到左边或右边的盒子:如果当前是盒子4,那么各以0.5的概率停留在盒子4或转移到盒子3;确定转移的盒子后,再从这个盒子里随机抽出1个球,记录其颜色,放回:如此下去,重复进行5次,得到一个球的颜色的观测序列:◎=(红,红,白,白,红)在这个过程中,观察者只能观测到球的颜色的序列,观测不到球是从哪个盒子取出的,即观测不到盒子的序列。在这个例子中有两个随机序列,一个是盒子的序列(状态序列),一个是球的颜色的观测序列(观测序列)。前者是隐藏的,只有后者是可观测的。这是一个隐马尔可夫模型的例子。根据所给条件,可以明确状态集合、观测集合、序列长度以及模型的三要素。盒子对应状态,状态的集合是:Q={盒子1,盒子2,盒子3,盒子4,N=4球的颜色对应观测。观测的集合是:V={红,自),M=210.1.3隐马尔可夫模型的3个基本问题隐马尔可夫模型有3个基本问题: (1)概率计算问题。给定模型入=(A,B,)和观测序列◎=(o1,02,•,or),计算在模型入下观测序列◎出现的概率P(OIA)。10.2概率计算算法197(2)学习问题。己知观测序列◎=(o1,02,⋯,or),估计模型入=(A,B,不)参数,使得在该模型下观测序列概率P(OIA)最大。即用极大似然估计的方法估计参数。 (3)预测问题,也称为解码(decoding)问题。已知模型入=(A,B,元)和观测序列◎=(ol,02,⋯,0T),求对给定观测序列条件概率P(IIO)最大的状态序列1=(a1,a2,,)。即给定观测序列,求最有可能的对应的状态序列。a=不浇水a=浇水D=0.4 p=0.6 a=浇水7=1 r=1 p-0.5 G=不浇水)=-1 =不浇水P=0.4 =0.6 a=不浇水p=0.6 7=-1S=缺水s=健康s=溢水a=浇水a=浇水a=不浇水p=0.5 p=0.4 p=0.4 a=不浇水=浇水a=浇水r=-1 p=0.6 )=-100 S=凋亡p=0.4 p=0.6 r--1 r=-100a=浇水/不浇水P=1 )=-100图16.2给西瓜浇水问题的马尔可夫决策过程只有四个状态(健康、缺水、溢水、凋亡)和两个动作(浇水、不浇水),在每一步转移后,若状态是保持瓜苗健康则获得奖赏1,瓜苗缺水或溢水奖赏为一1,这时通过浇水或不浇水可以恢复健康状态,当瓜苗调亡时奖赏是最小值—100且无法恢复.图中箭头表示状态转移,箭头旁的a,p,r分别表示导致状态转移的注意这里的了”(S)和Sick 2o份T(9)定不同 A Markov System with Rewards… Solving a Markov System Has: set of states (S,S, •Sa Write J(S) = expected discounted sum of future rewards Has a transition probability matrix starting in state S, Pr P12 PIN J(S) =,+ y X (Expected fuure rewards starting from next state) Pa Pe= Prob(Next = S,I This = S) =「+YPrJ(S1)+P2J(S2)+ •PNJ(Sw)) Pr Paw Using vector notation write Each state has a reward. 