天风·海外 | 强化学习与决策算法进步或带来Q*大模型能力的新突破，Agent能力落地有望加速

2023-11-24 07:31:07 - 市场资讯

我们认为强化学习与决策算法进步或带来Q*大模型能力突破，GPT4+强化学习和决策算法，或能实现比GPT4更强的Agent能力。Agent有望百花齐放，在产业与场景逐渐落地，对于同等参数与同等算力消耗，更丰富的应用场景意味着推理需求的持续提升，我们持续看好微软、英伟达、AI+电商、AI+教育等。

天风·海外 | 强化学习与决策算法进步或带来Q*大模型能力的新突破，Agent能力落地有望加速

我们认为大模型能力强化除了模型参数量、数据量之外，强化学习进步也是大模型能力突破重要的可能因素。

强化学习此前即为ChatGPT关键能力突破的因素之一。如RLHF即为3.5能力迭代的关键来源之一。OpenAI首席科学家Ilya曾表示，AI领域，每一个令人惊叹的创新都源自于强化学习。

OpenAI在多模型强化学习决策方面取得重大进展。这些进展将会推动Q学习算法在更多场景的应用，并促进相关决策系统的实现。

Q学习算法或带来强化学习下智能体的决策能力持续提升。Q学习是一种基于强化学习的算法，用来在马尔科夫决策过程中求解最优控制问题。它的目标是通过学习最优策略，使智能体在未知环境中做出最佳选择。Q学习依据Bellman方程更新状态-动作对应的Q值，逼近最优值函数。智能体通过与环境交互，观察到新的状态和奖励，来更新执行各个动作的Q值。

OpenAI近期持续引入强化学习和决策算法研究人员。23年7月份新引进的研究员NoamBrown，开展多步推理和多智能体互动方面的研究。NoamBrown此前参与发表的工作将语言模型与规划和强化学习算法结合，大幅提升了AI在复杂策略游戏中的表现，开发出第一批在德扑无上限游戏中击败顶级玩家的AI。这为OpenAI进一步增强强化学习系统的决策能力奠定了基础。

OpenAI近期于5月份发布的研究也表明,调整训练方式和引入更大规模的监督数据,将会显著提升强化学习系统的数学推理能力。OpenAI引入针对过程的强化学习监督，进一步提升大模型在数据推理与计算的准确性。

我们认为相关技术突破值得期待：我们此前深度解析Agent，认为首先任务拆解与反思能力对实现效果相对关键，其次为短期与长期记忆、浏览器与操作系统数据接入能力。多Agent为应用关键，AIAgent在面向科学研究、toB研发、个人助手场景方面的应用具备革命性。此外游戏场景下AIAgents对部分类型游戏NPC的替代可能会创造出全新的游戏模式。我们认为强化学习和决策算法进步下Agent实现路径有望创新。

投资建议：我们认为强化学习与决策算法进步或带来Q*大模型能力突破，GPT4+强化学习和决策算法，或能实现比GPT4更强的Agent能力。Agent有望百花齐放，在产业与场景逐渐落地，对于同等参数与同等算力消耗，更丰富的应用场景意味着推理需求的持续提升，我们持续看好微软、英伟达、AI+电商、AI+教育等。

风险提示：技术进步不及预期，AI相关的监管风险，OpenAI公司治理。