强化学习——策略学习

Posted on 2018-06-30

强化学习——策略学习给定策略\(\pi\)，状态估值函数的贝尔曼方程： \[v_{\pi}(s) = \sum_a \pi(a|s) \sum_{s',r} p(s',r|s,a) \Big[ r+\gamma v_{\pi}(s') \Big], \quad \text{ ...

马尔可夫决策过程

Posted on 2018-06-27

马尔可夫决策过程 1. 马尔可夫决策过程 Markov Decision Process:MDP；常用于建模序列化决策过程；行为不仅获得即时奖励，还能改变状态，从而影响长期奖励；学习状态到行为的映射——策略（多臂赌博机学习\(q_*(a)\)，MDP学习\(q_*(s,a)\)或\(v_*( ...

多臂赌博机

Posted on 2018-06-26

多臂赌博机一台赌博机有多个摇臂，每个摇臂摇出的奖励（reward）大小不确定，玩家希望摇固定次数的臂所获得的期望累计奖励最大。 1. 问题形式化行为：摇哪个臂奖励：每次摇臂获得的奖金 \(A_t\)表示第\(t\)轮的行为，\(R_t\)表示第\(t\)轮获得的奖励采取行为\(a\)的期望 ...

强化学习

Posted on 2018-06-26

强化学习 Reinforcement learning is a computational approach to learning from interaction, which is a kind of goal-directed learning. 目标学习从环境状态到行为的映射，使得智 ...

抽样分布

Posted on 2018-05-17

抽样分布 1. \(\chi^2\)分布设\(X_1,X_2,\cdots,X_n\)是来自总体\(N(0,1)\)的样本，则称统计量 \[\chi^2 = X_1^2 + X_2^2 + \cdots + X_n^2\] 服从自由度为\(n\)的\(\chi^2\)分布，记为\(\chi^2 \ ...

Gamma分布

Posted on 2018-05-17

Gamma分布指数分布解决的问题是：要等到一个随机事件发生，需要经历多久的时间； Gamma分布解决的问题是：要等到n个随机事件都发生，需要经历多久的时间。 Gamma分布即为多个独立同分布的指数分布变量的和的分布。指数分布和\(\chi^2\)分布都是Gamma分布的特例。 Gamma分布概 ...

指数分布

Posted on 2018-05-17

指数分布泊松分布是描述单位时间内随机事件发生次数的概率，而指数分布是描述独立随机事件发生的时间间隔。指数分布有如下的适用条件： \(x\)是两个事件发生的时间间隔，并且\(x > 0\)；事件之间是相互独立的；事件发生的频率是稳定的；两个事情不能发生在同一瞬间。指数分布公式可以 ...

条件随机场

Posted on 2018-04-16

条件随机场条件随机场（conditional random field，CRF）是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型，其特点是假设输出随机变量构成马尔可夫随机场。 1. 定义条件随机场是给定随机变量\(X\)条件下，随机变量\(Y\)的马尔可夫随机场。条件随机场：设 ...

牛顿法和拟牛顿法

Posted on 2018-04-15

牛顿法和拟牛顿法牛顿法（Newton method）和拟牛顿法（quasi Newton method）是求解无约束最优化问题的常用方法，有收敛速度快的优点。牛顿法是迭代算法，每一步需要求解目标函数的hessian矩阵的逆矩阵，计算比较复杂；拟牛顿法通过正定矩阵近似hessian矩阵的逆矩阵 ...

改进的迭代尺度法

Posted on 2018-04-12

改进的迭代尺度法改进的迭代尺度法（improved iterative scaling，IIS）是一种最大熵模型学习的最优化算法。已知最大熵模型为 \[P_{\pmb{w}} (y|\pmb{x}) = \frac{1}{Z_{\pmb{w}}(\pmb{x})} \exp \left( \su ...