...4o模型,网友热议:新版本提升不多,草莓单词测试依然“翻车”,但...
GPT-4o家族上新,“草莓”落地?网友的激动并非毫无缘由。新模型发布的前一周,OpenAICEO阿尔特曼在X上发布了一张花园里的草莓照片,网友随即联想到了OpenAI团队此前被爆出的一个名为“草莓(Strawberry)”的项目。但对于评论区的猜测,阿尔特曼本人没有证实,也没有否认,只是确认这张照片拍的是他现实中的花园。
OpenAI草莓模型深夜突袭!理化生达博士生水平,比GPT-4o强多了,Chat...
速度方面,GPT-4o、o1-mini和o1-preview回答同一个单词推理问题分别耗时3秒、9秒、32秒,但GPT-4o的回答是错误的,后两者回答正确。可以看出,o1-mini得出答案的速度比o1快了大约3~5倍。▲GPT-4o、o1-mini和o1-preview回答速度当然,毕竟是“阉割版”,OpenAIo1-mini也一定的局限性。在日期、传记和日常琐事...
GPT-o1模型实测:“物化生”水平超人类博士? 推理能力碾压GPT-4o
“单词strawberry里面到底有几个r”不出意外,GPT-4o依旧翻车,给出的答案是错误的。让我们惊喜的是,GPT-o1的回答就非常准确,“9.11和9.8谁更大?”GPT-4o在1秒内回答,但是给出了错误答案。难倒了一众大模型的小数位比大小问题,o1系列没有翻车,在等待了10多秒以后,o1给出的答案是正确的。我们再来一些...
OpenAI草莓模型理化生达博士生水平,比GPT-4o强多了,ChatGPT可用
速度方面,GPT-4o、o1-mini和o1-preview回答同一个单词推理问题分别耗时3秒、9秒、32秒,但GPT-4o的回答是错误的,后两者回答正确。可以看出,o1-mini得出答案的速度比o1快了大约3~5倍。▲GPT-4o、o1-mini和o1-preview回答速度当然,毕竟是“阉割版”,OpenAIo1-mini也一定的局限性。在日期、传记和日常琐事...
OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的...
上述评测还显示,o1模型在MMLUCategories中的高数测试正确率高达98%,且在MLBenchmarks中的数学测试相较GPT-4o获得了超过34%的最大绝对性优势,足以显示o1模型是个数学超级“学霸”。OpenAI还选择了专为美国最优秀的高中数学生而设计的高难度考试——美国数学邀请赛(AIME)作为基准,来测试模型的极限能力。
学习的时候,差不多可不行
背单词的时候,经常碰到这样的情况,把近似的单词记混(www.e993.com)2024年9月25日。procession队伍,行列,游行;一连串possession具有,拥有;个人财产;殖民地concession让步,妥协;特许;租地营业权profession职业;业界人士;公开,表明尤其前两个单词,读音也非常接近,特别容易搞混。
Open AI新模型o1问世,能像人类一样思考?
OpenAI的o1模型在全球编程比赛Codeforces中排名第89位,在美国数学奥林匹克(AIME)的资格赛中,进入了全美前500名。在物理、生物学和化学问题的测试中,它的表现甚至超过了博士水平。因此,o1-preview和o1mini在解决高难度的推理和专业问题上表现更出色;而GPT-4o更适合处理日常的任务。
OpenAI大秀肌肉,一口气放出10个新模型Demo,全球网友玩疯了
5.strawberry有几个r?「单词strawberry有几个R」这个问题,曾难倒一片大模型。OpenAI研究员先用GPT-4o试了一下,但GPT-4o仍然回答错误。这是因为GPT-4o等模型被设计用来处理文本,而不是单个字符或单词,因此,它们在处理涉及字符和单词理解的问题时就会翻车。
OpenAI 发布“草莓”模型,不卷训练卷推理了,理科能力评测达到...
还有大模型频频翻车的“Strawberry”单词里有几个“r”的问题。研究团队解释说,GPT-4o等高级模型会犯这样的简单错误,是因为这些模型为处理文本而构建,而非处理字符或单词。而o1-preview是一个推理模型,可以推理出正确答案,并自我检查输出。我们马上打开o1-preview试了一把,果然丝滑。
GPT-4o不香了?OpenAI竞争对手Anthropic发布最强大AI模型Claude 3.5
在覆盖阅读、编程、数学和视觉等领域的多项性能测试中,Claude3.5Sonnet的性能略胜一筹,吊打GPT-4o等一众竞争对手的AI模型,且优于自家旗舰模型Claude3Opus。当然,也有些测试不能完全反映AI在现实运用的情况,偏小众和个例。Anthropic的产品负责人MichaelGerstenhaber自信表示道:“对企业来说,重要的是AI...