送你一碗“海龟汤”
这道题其实就是一个很典型的“海龟汤”谜面,谜面本身就是一个场景(葬礼),有起因(遇到心上人),有结果(杀死姐姐),唯独缺少内在的逻辑联系,而答题者则需要补上内在的逻辑联系,有时候这个逻辑联系恐怖得毛骨悚人,或者脑洞大得异想天开。拿陈小生出的这道题举例,当然可能性有很多:可能是因为姐姐是妹妹心上人的梦...
我用2 万条真人 AI 海龟汤游戏数据,评估大模型推理能力哪家强
海龟汤游戏里几乎包含了推理所需的全部信息,一旦得知汤面和汤底,大模型就能作出判断,这使得评估被限定在了模型的推理能力。2.结果是客观的,不以人类偏好为转移。例如:在上述故事《山顶》里,小屋在悬崖边,主人半夜开门将登山者推下山导致后者被摔死。因此,门是朝外开的这个猜测就是正确的,这种正确性是客观的、...
春藤夏院探秘海龟汤:故事背后的逻辑推理游戏
在情境中隐藏一些关键信息,这些信息是解开谜题的关键。你可以通过描述一些看似无关紧要的细节来误导参与者,增加游戏的趣味性。3.控制难度:海龟汤的难度应该适中,既不能让参与者轻易猜出答案,也不能让他们感到无从下手。你可以通过调整关键信息的数量和难度来控制游戏的难度。4.检验答案:在发布海龟汤之...
实测OpenAI新模型o1 :做题王者,实战青铜
不过,和AI玩推理游戏很有意思,可惜目前新模型的额度有限,o1-preview每周可以发30条,o1-mini每周是50条,为了避免浪费宝贵的提问次数,下面的又一道海龟汤题目,我要求o1-preview一次性提8个问题,然后根据我的回答直接给出答案。这次它的表现相当令人惊讶:o1-preview只思考了10秒,提出的问题全部直击要害,真相呼之欲出...
OpenAI 全新 o1 模型实战奥数、推理题:AI 水平又上新高度
一是,数学与逻辑能力强,速度还不慢。二是,能够通过模拟人类的思维过程,帮助模型逐步分解复杂问题。这也是OpenAI在官方介绍中提到的思维链(CoT),与人类在回答难题之前会长时间思考类似,o1在尝试解决问题时会使用思维链。比如在回答「海龟汤」问题的时候,会进行推测、预设、分析等。无论是解题思路或者是剧情还原,都...
优爱腾芒齐聚推综赛道,招商困境“弯道超车”?
除此之外,在“小而美”的微综艺中,来自大芒计划轻综艺同样向推理领域进军(www.e993.com)2024年10月17日。不仅打造了十分钟极速推理节目《YESORNO》,主打桌游“海龟汤”;而且还有全女侦探的《漂亮的推理》,通过简单直接的问答形式,还原离奇故事的真相。这些综艺节目主打轻体量,对头部综艺进行补充,以“十分钟推理”作为核心卖点,以深度捆绑“推...
大模型能代替你刷知乎、打炉石传说、解谜“海龟汤”吗?清华...
AgentBench包含8个不同的环境,其中5个是首次使用的环境:操作系统、数据库、知识图谱、数字卡牌游戏、横向思维谜题(即所谓的“海龟汤”游戏)。其余3个环境是根据已发布的数据集重新编译的,包括家务、网购、网络浏览。上述所有数据集都经过设计与调整,来模拟交互式环境,使纯文本LLM可以作为自主的智能体运行。此外,Agen...
为什么有个人喝了一碗汤就自杀了?
随着年龄增长和阅历增加,人的理性思维越来越强大,人们才开始怀疑这些事件的合理性,抑制了恐怖感,但它们不会被真正去除。在玩“海龟汤”时,诡异的题目便让恐怖这一童年记忆再度浮现。这就是“海龟汤”恐怖却吸引人,越想越让人害怕的原因。当然,恐怖的“海龟汤”喝多了肯定是有副作用的,具体表现为夜里上厕所害怕...
“推理甜点”海龟汤能成为新风口吗?
大多时候,尤其是在线下,海龟汤仍是剧本杀的“餐前甜点”。从某种程度上,这是影响海龟汤在线下风靡,甚至能形成如狼人杀、剧本杀热潮的原因之一。“很多剧本杀店里会把海龟汤当成‘餐前甜点’而不是主食,主要原因就是其社交属性并不强,仅仅靠着几个简单的问题和回答就能结束游戏,玩家也会觉得没有必要去线下听...
《误杀2》的这一局,只有“杀”没有“误”
客观来讲,《误杀2》的悬疑塑造水平低于前作,但在悬疑之外,《误杀2》又走出来了一条新的“讲故事”的路。与前作从铺垫到解密再到回归的循环式结构不同,《误杀2》的开头使用了一种当下十分流行的推理游戏模式——“海龟汤”。“海龟汤”是一种情景推理猜谜游戏,其玩法是由出题者提出一个难以理解,不符合逻辑的...