我用2 万条真人 AI 海龟汤游戏数据,评估大模型推理能力哪家强
收集用户在玩AI海龟汤游戏中输入的猜测,逐一进行人工标注(对、错、不相关),然后用这个数据集,测试大模型的评判结果相较于真实结果的准确率。我发现现有评测指标的种种问题在海龟Benchmark上都可以完美避开1.不需要额外背景知识。海龟汤游戏里几乎包含了推理所需的全部信息,一旦得知汤面和汤底,大模型就能作...
纯白笼梦花堕转猩红,枷岛海龟汤推理汤底揭晓!
↓↓↓答案揭晓!现为大人奉上昨日☆枷岛海龟汤推理汤面☆的完整线索大人们推理出来了吗?直至谜底揭晓完整的故事逐渐显现枷岛的谜团却更为扑朔迷离不知何时会释放出更为骇人的真相……调查逐渐接近尾声灾厄的起因即将浮出水面——破译成功后恍然大悟的扫地工参上笼梦花为何猩红可怖?审讯记录·二完...
春藤夏院探秘海龟汤:故事背后的逻辑推理游戏
通过不断的提问和推理,参与者最终会发现,原来书房里有一架古老的钢琴,它的琴弦由于风吹日晒而松动,每到夜深人静时,琴弦就会自动振动发出声音。而由于宅院荒废多年,声音在空旷的房间里回荡,形成了悠扬的琴声。小伙伴们,海龟汤不仅是一个有趣的推理游戏,更是一个锻炼逻辑思维和创造力的好方法。如果你对海龟汤...
CNCC 落幕:国产大模型已经进化到能在横店给我们点咖啡
不过,我们也找到了AI无法替代人类智慧的证明,我们尝试和小智玩海龟汤游戏,汤面是「妈妈买回来一个大西瓜,我吃了,第二天我死了。」小智推理出的答案是,西瓜可能有致命的细菌或者农药残留,不能否认其中有一定道理,但之后她似乎开始逐渐忘记海龟汤的游戏规则,居然反问我们还有什么具体细节,这个测试到此戛然而止。
AI智能体|海龟汤游戏实践,看你能拿多少分?
随着科技的发展和人们生活节奏的加快,越来越多的人开始寻求在休闲时光中放松身心、锻炼思维能力的娱乐方式,其中有一款很常见,也是很简单的情景推理游戏—-海龟汤。于是我就尝试自己做了一款海龟汤游戏,分别尝试在智谱清言和coze两个平台上建立自己的智能体,其中无论是汤底的生成,还是对提问的判定,都由LLM生成,用户...
OpenAI 全新 o1 模型实战奥数、推理题:AI 水平又上新高度
o1模型的回答符合正确答案,正确答案如下:上述两道数学竞赛题,大模型都可以在一分钟之内轻松解答(www.e993.com)2024年11月22日。紧接着,我们给大模型测试LLM模型的经典必考:海龟汤问题。海龟汤是一种推理游戏,出题人给出简短、模糊的故事背景,由玩家自己主动提问。出题人只会回答「是」和「不是」,然后玩家根据出题人的回答,结合自己的推导...
实测OpenAI新模型o1 :做题王者,实战青铜
o1-preview的方向是对的,稍微缺乏了一些准确和完整,少了一些细节,但很接近正确答案。非要挑刺的话,可能是没有遵循我的提示词指令提问五次。不过,和AI玩推理游戏很有意思,可惜目前新模型的额度有限,o1-preview每周可以发30条,o1-mini每周是50条,为了避免浪费宝贵的提问次数,下面的又一道海龟汤题目,我要求o1-prev...
海龟汤100题最经典题目答案恐怖大全
海龟汤恐怖经典题目是如下:1、一个人坐火车去临镇看病,看完之后病全好了。回来的路上火车经过一个隧道,这个人就跳车自杀了。为什么?答案:因为他看好的是眼睛的病。经过隧道,以为眼睛又看不见了。经受不住打击,自杀了。2、有母女三人,母亲死了,姐妹俩去参加葬礼。妹妹在葬礼上遇见了一个很有型的男子,并...
恐怖推理海龟汤故事,胆小慎入!
(答案在底下)1.吃人的井从前有一家三口,单亲妈妈、儿子与女儿,某天儿子觉得自己的妹妹很吵,便把她杀了,丢进后院的井里,第2天之后妹妹的尸体却消失了,从此儿子杀人后,丢进井里的尸体只要一到隔天,一一的都消失了,直到15年后,儿子因为厌倦照顾年迈的母亲,便也把她杀了丢到井里,儿子去井内看的...
你已经猜到结局了吗答案汇总 各章问题答案一览
你已经猜到结局了吗答案是什么?你已经猜到结局了吗是一款热门的海龟汤主题游戏,那么游戏中各章节的问题正确答案是什么呢?接下来就让我们一起了解一下吧。你已经猜到结局了吗答案一、答案汇总1-1「窃贼」、「警察局」、「他被逮捕了」1-2「完全一样」,「加了冰块」,「喝酒喝太慢」...