送你一碗“海龟汤”
最多只能算是IQ小侦探,因为“海龟汤”的谜面必须可以用“为什么”或“怎么回事”来提问,如果提问类似“甲乙丙丁四个嫌疑人谁才是真凶”“死者是被什么凶器所杀”的,都缺少情境和人物关系,因此构不成“海龟汤”的谜面。
我用2 万条真人 AI 海龟汤游戏数据,评估大模型推理能力哪家强
因此我想到了一种新的大模型评估指标海龟Benchmark收集用户在玩AI海龟汤游戏中输入的猜测,逐一进行人工标注(对、错、不相关),然后用这个数据集,测试大模型的评判结果相较于真实结果的准确率。我发现现有评测指标的种种问题在海龟Benchmark上都可以完美避开1.不需要额外背景知识。海龟汤游戏里几乎包含了...
纯白笼梦花堕转猩红,枷岛海龟汤推理汤底揭晓!
现为大人奉上昨日☆枷岛海龟汤推理汤面☆的完整线索大人们推理出来了吗?直至谜底揭晓完整的故事逐渐显现枷岛的谜团却更为扑朔迷离不知何时会释放出更为骇人的真相……调查逐渐接近尾声灾厄的起因即将浮出水面——破译成功后恍然大悟的扫地工参上笼梦花为何猩红可怖?审讯记录·二完整线索公开——祸...
齐思钧和其他哥哥说石凯以前专业玩海龟汤的…
#石凯主修音乐辅修海龟汤#齐思钧和其他哥哥说石凯以前专业玩海龟汤的,毕竟他是见识过石凯玩海龟汤的厉害的[哈哈]#披荆斩棘..._新浪网
#奔跑吧海龟汤菜单# 海龟汤来啦~
00:23#奔跑吧茶马古道篇定档#彩云之南,是心的方向~叮当叮当,一步一响,一步一想,请查收来自沙爹00:16#奔跑吧茶马古道篇定档#叮当叮当,是什么在响呢?由恺哥00:24#奔跑吧茶马古道篇定档#叮当叮当,是什么声音?原来是来自晨哥01:39#张真源的充电线有两米长#奔跑吧行路榜铃铛值155W成就值达成!前方掉落#...
#奔跑吧海龟汤菜单# 海龟汤红红火火开业啦~
00:23#奔跑吧茶马古道篇定档#彩云之南,是心的方向~叮当叮当,一步一响,一步一想,请查收来自沙爹00:16#奔跑吧茶马古道篇定档#叮当叮当,是什么在响呢?由恺哥00:24#奔跑吧茶马古道篇定档#叮当叮当,是什么声音?原来是来自晨哥01:39#张真源的充电线有两米长#奔跑吧行路榜铃铛值155W成就值达成!前方掉落#...
迪丽热巴出海龟汤谜题,快来猜猜看吧!
如果你玩三国游戏一分钱都不花,那试试这款,武将全靠招募!广告三国群英传了解详情4902|01:20资本控制下明星穿衣,薛凯琪深V露背一个不落,杨幂红毯小心翼翼2024-11-132296|02:08迪丽热巴从影以来荧幕颜值变化,高雅气质女神异国风情,你最喜欢她的哪部作品2024-11-06537|01:05甜晕了啊啊啊!谁能不...
实测OpenAI新模型o1 :做题王者,实战青铜
不过,和AI玩推理游戏很有意思,可惜目前新模型的额度有限,o1-preview每周可以发30条,o1-mini每周是50条,为了避免浪费宝贵的提问次数,下面的又一道海龟汤题目,我要求o1-preview一次性提8个问题,然后根据我的回答直接给出答案。这次它的表现相当令人惊讶:o1-preview只思考了10秒,提出的问题全部直击要害,真相呼之欲出...
OpenAI 全新 o1 模型实战奥数、推理题:AI 水平又上新高度
基于此,多鲸依次选取小学奥数、阿里巴巴数学竞赛、LLM模型的经典必考「海龟汤」等题目,轮番向大模型进行提问,以此检验大模型的推理能力。题目——学而思四年级相遇问题思维训练一天,小张从甲镇出发去乙镇,同时小王从乙镇出发去甲镇,出发后12分钟在丙村相遇。
《足不出户》:咱先猜个海龟汤?
今天来给大家推荐一个新西兰的恐怖片,名字叫作??《足不出户》。??在故事开始之前,可以给大家出个海龟汤题目,等到看完故事,你就知道答案了。??汤面是这样的:我被囚禁在了这个房子里,刚开始的时候,我发现了很多诡异的动静,后来,死了很多人。