扩散模型概述:应用、引导生成、统计率和优化
2024年6月25日 - 网易
扩散模型还通过将顺序决策视为生成序列建模,在控制和RL问题中体现了算法设计的一个新的领域。在RL中典型的奖励最大化规划任务中,目标是找到一个实现大累积奖励的最优策略。传统方法依赖于迭代求解Bellman最优性以获得相应的策略。然而,生成序列建模直接产生大奖励的状态-动作轨迹,避免了明确求解Bellman最优性。换句...
详情
机器人顶会RSS公布6篇最佳论文提名,多位华人一作入选
2021年7月14日 - 雷锋网
为了实现这一目标,我们将最优解封装在一个基于渐进非凸性的鲁棒估计方案中,同时,提出了一个在类别级感知中剪除离群点的图论公式,以通过凸包和最大团计算去除离群点,实验证明,该方法使离群点的鲁棒性达到70%??90%的异常值.第三个贡献是广泛的实验评估。除了在模拟数据集和PASCAL3D+数据集上进行烧蚀研究外,...
详情
强化学习之路——清华博士后解读83篇文献,万字长文总结
2020年2月27日 - 网易
前者主要发展自最优控制领域。通常先通过高斯过程(GP)或贝叶斯网络(BN)等工具针对具体问题建立模型,然后再通过机器学习的方法或最优控制的方法,如模型预测控制(MPC)、线性二次调节器(LQR)、线性二次高斯(LQG)、迭代学习控制(ICL)等进行求解。而后者更多地发展自机器学习领域,属于数据驱动的方法。算法通过大量采样,估...
详情
碳纤维及其在汽车轻量化中的应用
2018年10月9日 - 搜狐汽车
(Levine等,2015))将问题分解为三个相对容易解决的阶段:首先,它使用全状态观测,以创建围绕一个或多个标称轨迹的动力学的局部线性近似,然后使用最优控制来找到沿这些轨迹的局部线性最优策略;最后,它使用监督学习来训练复杂的非线性策略(例如深度神经网络)以再现优化轨迹的状态-动作映射。
详情