给小学数学题加句废话,OpenAI o1就翻车了,苹果论文质疑AI推理

2024年10月12日 - 网易

OpenAI2021年提出的GSM8K(GradeSchoolMath8K)小学数学题数据集已成为评估LLM数学推理能力的流行基准。尽管它包含了详细的解决方案的简单数学问题,适合使用思维链(CoT)提示等技术,但它只提供了一个固定问题集上的单一指标。这种局限性限制了对模型数学推理能力的全面洞察。此外,GSM8K的流行和普遍性可能会增...

详情

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理

2024年10月13日 - 新浪新闻

苹果新论文证明LLM大模型存在缺陷!没有进行真正的逻辑推理快科技10月13日消息,近日,苹果公司的AI研究团队发表了一篇题为UnderstandingtheLimitationsofLargeLanguageModelsinMathematicalReasoning”的论文,揭示了大型语言模型(LLM)在数学推理方面的显著局限性。尽管这些模型在生成人类水平的文本方面表现出色,但...

详情

周枫:o1是大模型发展的里程碑时刻,打开了逻辑性思维大门的一条缝隙

2024年9月16日 - 腾讯新闻

这也解释了为什么在教育领域,之前的大模型强于文科,而弱于理科,就是因为思维偏直觉和情感,而在需要反复琢磨的逻辑思维上比较差。对于这个问题,之前的LLM增强能力依靠不断加大参数量,o1给出了一个另外的思路,就是在训练阶段和推理(inference)阶段都加入增强学习和思维链,通过反复计算,来加强模型的数理推理能力。另外...

详情

「AI时刻」OpenAI首款“推理”模型o1:人工智能的下一场豪赌?

2024年9月18日 - 百家号

然而，o1模型在这道题上不仅给出了正确答案——9.9更大，并且进一步探讨了当数字比较不是单纯数值时，可能存在的其他歧义情况。o1模型的回答不仅准确，还展示出它在逻辑上的深度思考能力。这种对问题多维度的理解反映了它在逻辑推理上的优势。o1-mini测试二：在客厅的桌子上放着一个杯子，杯子里有一个戒指。

详情

爱范儿

2024年10月14日 - 爱范儿

如果将这种情况类比到小学数学测试中,仅仅因为改变了人名而导致分数下降10%。未来,大语言模型需要突破模式匹配,真正实现逻辑推理,才能应对不断变化的现实需求。vivoX200系列发布会昨天(10月14号)晚上,vivo一共发布了三台新机,X200|X200Promini|X200Pro,三款机型的配置差异,这回也体现在手机的外观...

详情

大模型数据集更新!教育题库新增数学题、逻辑推理题及英文题

2024年1月24日 - 网易

新增逻辑推理题题库1000万道,语篇关系分为显式、隐式两种类型(www.e993.com)2024年10月18日。题目类型包括选择题、填空题和问答题等。题目涵盖不同的难度级别,从简单到复杂,适合不同水平的逻辑思维和数学能力。新增英文题库5000万道,包含多种题型,涵盖各种学科领域和阅读难度,适合不同阶段的算法训练需求。

详情

分不清9.11和9.9大小暴露大模型逻辑推理短板

2024年7月18日 - 新浪

逻辑推理被认为是当前大模型最难以攻克的一道关卡。一道小学数学题,成功难倒了超过一半的大模型。近日,据报道,经测试,在“9.11和9.9两个数字哪个更大”这个基础的数学题上,国内外12个大模型之中只有4个答对了,剩下8个全都回答错误。在答错者中,还包括了知名的ChatGPT-4o。

详情

GPT-4推理能力为0?开发者悬赏1万美金被打脸,神秘提示正确率直冲100%

2024年4月9日 - 澎湃新闻

新智元导读小孩子都会的脑筋急转弯推理题,GPT-4和Claude3做不出?国外一位开发者小哥坚称这一观点,认为GPT模型在训练集外毫无推理能力,无法实现AGI,甚至悬赏1万美元,发起比赛。然而,他当天就被光速打脸了!网友用高能的prompt,让GPT-4和Claude3几乎达到百分百的正确率。

详情

【国盛量化&通信】驱动AGI时代算力提升的核心引擎——华夏中证...

2024年10月11日 - 新浪

1、光通信逻辑持续演绎,AIGC发展催生海量算力需求。AGI爆发式增长的背景下,大模型复杂度日益提升,AI训练推理过程中对算力的需求也随之增加,百万卡超大规模GPU集群网络成为趋势;加之“以太网”成为网络连接新选择,催生海量的高端以太网交换机以及高速率云厂商光模块的需求。伴随英伟达H200提前发布,下游1.6T需求已提前释放...

详情

大模型“翻车”小学题?

2024年7月18日 - 腾讯网

04业内人士指出,大模型在数学推理方面需要具备推理演绎能力,同时Tokenizer的数字切分问题也可能导致错误。05未来,模型的训练数据将更加依赖构造型数据,以提高复杂推理能力。以上内容由腾讯混元大模型生成,仅供参考13.11和13.8谁大?——这样一道简单的“小升初”数学题难倒一众网友和大模型。

详情

查看更多

小学生逻辑推理训练100题答案
逻辑推理小学生
小学生逻辑推理题及答案大全
适合小学生的逻辑推理题
小学逻辑推理问题知识要点
小学生逻辑思维推理题
小学生逻辑推理故事附答案
逻辑思维题30道测试
小学逻辑推理技巧口诀
小学生逻辑推理训练100题电子版