送你一碗“海龟汤”
这道题其实就是一个很典型的“海龟汤”谜面,谜面本身就是一个场景(葬礼),有起因(遇到心上人),有结果(杀死姐姐),唯独缺少内在的逻辑联系,而答题者则需要补上内在的逻辑联系,有时候这个逻辑联系恐怖得毛骨悚人,或者脑洞大得异想天开。拿陈小生出的这道题举例,当然可能性有很多:可能是因为姐姐是妹妹心上人的梦...
春藤夏院探秘海龟汤:故事背后的逻辑推理游戏
在情境中隐藏一些关键信息,这些信息是解开谜题的关键。你可以通过描述一些看似无关紧要的细节来误导参与者,增加游戏的趣味性。3.控制难度:海龟汤的难度应该适中,既不能让参与者轻易猜出答案,也不能让他们感到无从下手。你可以通过调整关键信息的数量和难度来控制游戏的难度。4.检验答案:在发布海龟汤之...
我用2 万条真人 AI 海龟汤游戏数据,评估大模型推理能力哪家强
收集用户在玩AI海龟汤游戏中输入的猜测,逐一进行人工标注(对、错、不相关),然后用这个数据集,测试大模型的评判结果相较于真实结果的准确率。我发现现有评测指标的种种问题在海龟Benchmark上都可以完美避开1.不需要额外背景知识。海龟汤游戏里几乎包含了推理所需的全部信息,一旦得知汤面和汤底,大模型就能作...
马思纯:翻过那座山,就会有新的故事。
年轻的朋友带马思纯去玩“海龟汤”“剧本杀”这些情景推理游戏,她以前从没听过,了解到有悬疑、能推理,立刻起了兴致,“玩过之后我觉得很过瘾,很多事情应该先去感受,哪怕它不在你原本的认知内”。大多数女孩在25岁之后将要面对另一个境遇。她承认自己的变化非常鲜明,“主观能动性变强了,会尝试改变、调整,但绝...
实测OpenAI新模型o1 :做题王者,实战青铜
不过,和AI玩推理游戏很有意思,可惜目前新模型的额度有限,o1-preview每周可以发30条,o1-mini每周是50条,为了避免浪费宝贵的提问次数,下面的又一道海龟汤题目,我要求o1-preview一次性提8个问题,然后根据我的回答直接给出答案。这次它的表现相当令人惊讶:o1-preview只思考了10秒,提出的问题全部直击要害,真相呼之欲出...
优爱腾芒齐聚推综赛道,招商困境“弯道超车”?
除此之外,在“小而美”的微综艺中,来自大芒计划轻综艺同样向推理领域进军(www.e993.com)2024年11月23日。不仅打造了十分钟极速推理节目《YESORNO》,主打桌游“海龟汤”;而且还有全女侦探的《漂亮的推理》,通过简单直接的问答形式,还原离奇故事的真相。这些综艺节目主打轻体量,对头部综艺进行补充,以“十分钟推理”作为核心卖点,以深度捆绑“推...
腾讯、莉莉丝等员工分享:如何更好地用新技术「摸鱼」?
刚才提的Humanity思考层和这个本质上是一样的,以前的NPC因为受限于技术、人力,游戏本身的属性也是线性叙事,NPC不需要很强的实时性思考和感知,follow既定的演出表现路线(也就是脚本)就好。但如果真的要做一个沙盒,那Humanity和Evolver在技术目标上是等质的,都是为了模拟从什么场景输入,感知到什么、到可能会发生什么这...
OpenAI 全新 o1 模型实战奥数、推理题:AI 水平又上新高度
一是,数学与逻辑能力强,速度还不慢。二是,能够通过模拟人类的思维过程,帮助模型逐步分解复杂问题。这也是OpenAI在官方介绍中提到的思维链(CoT),与人类在回答难题之前会长时间思考类似,o1在尝试解决问题时会使用思维链。比如在回答「海龟汤」问题的时候,会进行推测、预设、分析等。无论是解题思路或者是剧情还原,都...
大模型能代替你刷知乎、打炉石传说、解谜“海龟汤”吗?清华...
AgentBench包含8个不同的环境,其中5个是首次使用的环境:操作系统、数据库、知识图谱、数字卡牌游戏、横向思维谜题(即所谓的“海龟汤”游戏)。其余3个环境是根据已发布的数据集重新编译的,包括家务、网购、网络浏览。上述所有数据集都经过设计与调整,来模拟交互式环境,使纯文本LLM可以作为自主的智能体运行。此外,Agen...
椰子游戏双一号IP:国际化「MT」和社交平台「海龟汤」联动未来
所以,从这个逻辑上说,“我叫MT”也好,亦或是“海龟汤”也罢,还有些其暂时不便透露的其他IP,这些IP资产以及其背后的用户群都将成为喻总构建“椰子元宇宙”娱乐帝国实实在在的要素。回过头再看看本次5??20及5??21的IP联动活动,才能更加明白喻总的用意,这一积极的跬步不就是在“联动未来”么?可以展望,...