一句废话就把OpenAI o1干崩了?大模型的推理能力还真挺脆弱的
就在一个月前,OpenAI悄悄发布了o1,o1的推理能力是有目共睹的。我当时用了几个很难很难的测试样例去试验了一下,很多模型见了都会犯怵,开始胡说八道。最难的其中一个是姜萍奥赛的那个数学题,几乎暴揍所有大模型的那个题,交给o1,o1竟然完完全全答对了。如果你还记得,我在那篇文章最后给大家放了OpenAI给出...
再谈LLM逻辑推理的三大谬误
首先,人类在推理过程中确实会出错,但人类大脑无疑具备进行开放式推理的能力,我们共同构建了两千多年扎实的数学体系,这就是很好的证据。而且,所有大学生——至少理工科领域的大学生——在学习过程中都需要做一些结构化的练习题,这些题目要求他们运用逻辑推理得出正确结论,比如证明定理。所以,尽管人类有时候会很愚蠢,但...
学会反思的国产大模型,真变强了?
白锦峰表示,目前大语言模型的第一性原理是NextTokenPrediction,也就是通过预测下一个字符的方式给出答案,而这种预测是基于概率的,这决定了大模型一定会有出错的概率。为了提升准确率,目前的推理大模型普遍应用了CoT(思维链)和Voting&Verifier两种算法,前者将复杂问题拆分为多个步骤,后者则对于每一步的结果进行...
ICML2024演讲爆火!Meta朱泽园揭秘大模型内心世界:不同于人类推理
如图3所示,作者发现,GPT-2可以学会1级推理,几乎每次都给出最短解答。这非常不简单!因为在模型生成第一句话之前,必须已经在脑海中完成了整个拓扑排序——否则它怎么知道哪个变量是不必要的?如果模型一开始就生成了「小李的苹果有7个」,那就无法回头,得不到最短解答。图3那么,模型是如何学...
青春华章·初为人师|小学数学老师魏悦鸣:我想让数学变得有趣
我想让数学变得有趣。”一次数学课上,魏悦鸣引导学生们通过模拟商店购物的活动来认识数字和人民币。孩子们积极参与乐在其中,在轻松愉快的氛围中掌握了数学知识。这正是魏悦鸣所期望的:数学不应该只出现在课堂讲授或考试题目,而应渗透到日常生活的角角落落。
神经网络理论研究的挑战性课题:统计物理能否给智能科学带来第一性...
因此,有趣的是智能体通过与环境的互动学习建立了什么样的内部模型(www.e993.com)2024年11月23日。这可以与前面表示学习和泛化的挑战联系起来。此外,最近的一项工作显示了强化学习与统计物理之间的联系[66],其表明可以潜在地建立一个统计力学理论来理解强化学习,并可能对研究基于奖励的大脑的神经计算产生深刻影响[67]。
两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT...
下面,我们来简单分析一下:题目首先涉及一个虚构的女性人物「爱丽丝」,并通过「她」这个代词暗示;其次提供了关于她兄弟和姐妹数量的明确陈述;最后提出了一个明确的问题,即计算爱丽丝的兄弟有多少个姐妹。显然,这对大多数成年人来说并没有挑战性;甚至对于一定年龄以上的儿童来说,通过常识推理也不难解决。
解构思维之链、树与图:我们该如何优化大语言模型的推理能力?
为了加深对这一非常有趣又有前景的领域工作的理解,来自苏黎世联邦理工学院的学者们为我们深入细致的讨论了推理拓扑的基本概念、分类法与重要性,解构了思维之链、树与图的推理拓扑的本质,对“大模型的推理能力”来了一场酣畅淋漓的综述。论文题目:TopologiesofReasoning:DemystifyingChains,Trees,andGraphs...
为什么小学生会的题,而丘成桐不会?
另外,在中国知道“赵本山”的或许比知道“丘成桐”的更多。还有一个有趣的启发是,当我们看到一个问题的时候,不妨先问问自己:这到底是数学题,还是脑筋急转弯?也许,答案比你想象的更有趣。关于上述故事,你有啥想说的?欢迎在评论区留言~
比尔盖茨最新访谈:Scaling Law快要走到尽头,超人AI还需新的突破
但这不是最有趣的维度。最有趣的维度是我所说的元认知,即理解如何从广义上思考问题并后退一步思考各种问题。比如:好的,这个答案有多重要?我怎样检验我的答案?有什么外部工具可以帮助我?目前AI的总体认知策略还很简单,它仅仅通过连续计算连续序列的token,就有这样如此强大的能力。它不会像人类那样后退思考:...