实测OpenAI最强模型o1:会做大学数理化,但弱智吧依然难解
但同时preview在思考过程中表示,9.8和9.11有可能指的是日期,所以做不对也许另一原因。针对这个问题,大神谢赛宁也晒出了他的测试结果,发现o1在思考过程中将9.8当成了重力常数,而9.11是一个"意义不明的数字"。所以o1可能不是不会,而是把这个问题想复杂了。为了进一步探究,我们把问题改得...
新V观海外:OpenAI o1模型实测的惊艳感不足
因为就在不久前,DeepMind也发布过AlphaProof和AlphaGeometry2在国际奥数竞赛中的结果,虽然那个测试结果也有一定的取巧成分,但已表明这种通过模型自我对弈实现高级推理能力的做法,并不是OpenAI的最新突破。仓促发布产品的毛坯感十足除了奥赛数学题方面的惊艳感不足之外,这次o1-preview模型的整体用户体验还不完整。目...
这道简单的推理题,据说80%的人都答不对
从数学关系来说,“若B,则A”是“若A,则B”的逆命题,一个原命题与它的逆命题之间的真假关系不一定一致。另外,“K”这张卡片是没必要翻开的。因为“若非A,则非B”被称为原命题的“否命题”。与逆命题一样,否命题与原命题的之间的真假关系也不一定一致。通过这样的逻辑分析,就可以避免只靠直觉做出错误的...
逻辑推理,我们凭的是什么? | 社会科学报
后来有不少学者持类似的看法,认为卡罗尔把衍推变成蕴涵,或者说把推理过程变成一个条件句,就是在误导读者了,以至于在没有问题的地方故意制造问题。所谓的“不考虑命题内容,只考虑形式上的关联”这个视角本身就是不对的,我们就应该考虑内容,这样一来,推理的有效性就非常直观。上世纪中叶起,有些学者对卡罗尔疑难又提出...
当AI遇上高考数学题,4个大模型“考生”“成绩单”出炉
部分大模型“蒙”对答案计算推理过程存在明显错误正确率的背后受多个维度能力影响,而数学能力是此次测评关注的核心。在测评过程中记者注意到,几位“考生”在题目理解能力、计算推理能力以及解析过程的详略上,均存在差异和不同特征。就正确率而言,星火大模型表现较好,但部分题目的计算推理过程却经不起推敲,虽然结果...
和罗永浩学辟谣
打断对方,是为了将对方的思维拉到自己的轨道上来,而不是陷入别人的逻辑中(www.e993.com)2024年9月19日。在罗永浩推荐的《学会提问》这本书里,也有专门一章来论述“推理过程中有没有谬误”,并列举了3种常见的“诡计花招”:第一,提供的推理需要明显错误的或者让人不能接受的假设才能成立,因此使推理和结论显得毫无关系;...
豆瓣8.4,平台热度破万,《唐诡之西行》如何打破系列剧魔咒?|对话主创
编剧想把一个故事写完,最重要的是用人物关系的变化推动故事。在具体的写作中,有时候故事推不下去,可能是因为在某个环节上太过追求完美。这个路径是不对的。因为最关键的,就是先把第一稿写出来。有了基本的结构之后,再去做调整。而且,人物也包含在结构中,可以说结构即人物。
何小鹏系统谈大模型改造智驾:造车像血海游泳,但我更有信心了
我们三人有很大、很大差别——他们也是干互联网,但更多是互联网汽车和媒体相关;我是干移动互联网跟工具相关——所以思考逻辑不一样。你看我,我更关注技术,因为我后来主要竞争对手是谷歌Chrome。我更关注全球化,我们花了很多力气做全球化,后来在发达国家我们打不过,在发展中国家打得过,但靠的不是技术,靠的是运营...
《快思慢想》:为什么说大语言模型与人类思考系统工作机制高度契合...
大语言模型产生幻觉的原因之一是在模型训练的过程中的数据质量问题所致,用户的问题缺少高质量的数据支持,大模型“一本正经的胡说八道”的概率就会上升,解决之道在于收集全面的高质量数据。对我们的大脑来说,要培养优秀的系统1,同样需要高质量的输入,避免“garbagein,garbageout”的情况发生。我们把注意力放在哪里,...
四川省成都市第七中学2024届高三下学期三诊模拟考试语文试卷及...
逻辑谬误违背了逻辑思维的法则,会导致我们对客观世界产生错误的认识。在日常生活中,大家可能会不自觉地犯逻辑上的错误。比如,不严格按照三段式的正确形式进行演绎推理,讨论问题时不注意确定相关概念的内涵与外延。又如,在逻辑论证过程中,不认真辨析前提是否真实可信。在这些情况下,逻辑谬误就会产生。