普林斯顿大学王梦迪:从基础理论到通用算法,看见更大的AI世界观
2021年12月23日 - 雷锋网
王梦迪与叶荫宇等人合作,结合经典的价值迭代算法,以及样本与方差缩减技巧,首次提出了能基于样本精确解决MDP的最优快速收敛算法,将马尔可夫决策链中的计算复杂度与样本复杂度做到了最优。他们的一系列工作(如“Near-OptimalTimeandSampleComplexitiesforSolvingMarkovDecisionProcesseswithaGenerativeModel”)...
详情
NIPS 2018 腾讯 AI Lab 入选 20 篇论文,含 2 篇 Spotlight
2018年10月25日 - 网易
研究者还发展了该方法的一种方差减小的变种,在强凸条件下可以证明它具有线性收敛性。研究者使用logistic损失函数进行了求解分类问题的数值实验,结果表明新方法在高维问题上的收敛速度优于SGD、SVRG、SAGA等经典算法。每次迭代成本为O(1)的随机原始-对偶方法(SPD1)使用了方差缩减的SPD118.方差缩减的...
详情
机器学习与应用专场:AIS预讲会全程干货分享
2018年6月15日 - 网易
而这个方差显然对我们的梯度上升法的求解不管是效率还是结果上都造成了很大的影响,所以我们希望可以缩减这个方差。对于蒙特卡洛方法而言,其实已经有了比较成熟的减方差的策略,比如控制变量法、对偶变量法。类似于控制变量法衍生出了强化学习中很使用的带基准线的策略梯度法,我们将对偶变量法引入多臂机得到我们的方法。
详情
数据挖掘图书:应用随机过程:概率模型导论(第10版) [平装] | 互联...
2012年4月24日 - 199IT
11.5.2模拟二维泊松过程11.6方差缩减技术11.6.1对偶变量的应用11.6.2通过取条件缩减方差11.6.3控制变量11.6.4重要抽样11.7确定运行的次数11.8马尔可夫链的平稳分布的生成11.8.1过去耦合法11.8.2另一种方法习题参考文献附录带星号习题的解索引文摘版权页:插图:购买...
详情