我用2 万条真人 AI 海龟汤游戏数据,评估大模型推理能力哪家强
收集用户在玩AI海龟汤游戏中输入的猜测,逐一进行人工标注(对、错、不相关),然后用这个数据集,测试大模型的评判结果相较于真实结果的准确率。我发现现有评测指标的种种问题在海龟Benchmark上都可以完美避开1.不需要额外背景知识。海龟汤游戏里几乎包含了推理所需的全部信息,一旦得知汤面和汤底,大模型就能作...
春藤夏院探秘海龟汤:故事背后的逻辑推理游戏
通过不断的提问和推理,参与者最终会发现,原来书房里有一架古老的钢琴,它的琴弦由于风吹日晒而松动,每到夜深人静时,琴弦就会自动振动发出声音。而由于宅院荒废多年,声音在空旷的房间里回荡,形成了悠扬的琴声。小伙伴们,海龟汤不仅是一个有趣的推理游戏,更是一个锻炼逻辑思维和创造力的好方法。如果你对海龟汤...
纯白笼梦花堕转猩红,枷岛海龟汤推理汤底揭晓!
现为大人奉上昨日☆枷岛海龟汤推理汤面☆的完整线索大人们推理出来了吗?直至谜底揭晓完整的故事逐渐显现枷岛的谜团却更为扑朔迷离不知何时会释放出更为骇人的真相……调查逐渐接近尾声灾厄的起因即将浮出水面——破译成功后恍然大悟的扫地工参上笼梦花为何猩红可怖?审讯记录·二完整线索公开——祸...
AI智能体|海龟汤游戏实践,看你能拿多少分?
随着科技的发展和人们生活节奏的加快,越来越多的人开始寻求在休闲时光中放松身心、锻炼思维能力的娱乐方式,其中有一款很常见,也是很简单的情景推理游戏—-海龟汤。于是我就尝试自己做了一款海龟汤游戏,分别尝试在智谱清言和coze两个平台上建立自己的智能体,其中无论是汤底的生成,还是对提问的判定,都由LLM生成,用户...
实测OpenAI新模型o1 :做题王者,实战青铜
海龟汤是一种推理游戏,出题人给出简短、模糊的故事背景,由玩家自己主动提问。出题人只会回答“是”和“不是”,然后玩家根据出题人的回答,结合自己的推导,给出故事的真相。我给了o1-preview五次提问的机会,然后让o1-preview尝试推理真相。每一次提问,o1-preview都考虑了十几秒,层层递进。
优爱腾芒齐聚推综赛道,招商困境“弯道超车”?
除此之外,在“小而美”的微综艺中,来自大芒计划轻综艺同样向推理领域进军(www.e993.com)2024年11月22日。不仅打造了十分钟极速推理节目《YESORNO》,主打桌游“海龟汤”;而且还有全女侦探的《漂亮的推理》,通过简单直接的问答形式,还原离奇故事的真相。这些综艺节目主打轻体量,对头部综艺进行补充,以“十分钟推理”作为核心卖点,以深度捆绑“推...
当《大侦探》跑至100期
在过去一百案的基础下,《大侦探》将一位位侦探带至观众面前,名场面与梗齐飞,CP与团魂同在,以推理真人秀构建了不间断的陪伴感;同时它也在每年如约而至的过程中,完成了“明侦宇宙”的建立,探索着单集付费和增值内容等综艺toC的商业途径,打通了线上线下的开发,甚至带动了剧本杀、海龟汤等产业的发展……《...
“推理甜点”海龟汤能成为新风口吗?
以北京为例,如果在大众点评搜索海龟汤,在不少评论中都可以看到“第一轮海龟汤破冰”“游戏从海龟汤开始”等类似表达,且大多数都是剧本推理店。大多时候,尤其是在线下,海龟汤仍是剧本杀的“餐前甜点”。从某种程度上,这是影响海龟汤在线下风靡,甚至能形成如狼人杀、剧本杀热潮的原因之一。
低门槛的海龟汤,推理赛道生力军
低门槛的海龟汤,推理赛道生力军“海龟汤”一般指情境推理游戏,由出题者提出一个难以理解的事件,参与者可以随意提出假设从而还原事件真相,而出题者只能回答是或不是。打开网易新闻查看精彩图片海龟汤正在席卷小红书、抖音等社交媒体,不少主播的直播间里和粉丝连麦畅玩、形成互动,创业市场上也出现了聚焦海龟汤的游戏...
恐怖推理海龟汤故事,胆小慎入!
恐怖推理海龟汤故事,胆小慎入!(答案在底下)1.吃人的井从前有一家三口,单亲妈妈、儿子与女儿,某天儿子觉得自己的妹妹很吵,便把她杀了,丢进后院的井里,第2天之后妹妹的尸体却消失了,从此儿子杀人后,丢进井里的尸体只要一到隔天,一一的都消失了,直到15年后,儿子因为厌倦照顾年迈的母亲,便也把她杀...