...逻辑推理正确率仅 50%!清华、智谱推出「大模型逻辑推理新基准」
分类中插图用紫色突出显示涉及数学的类别。LogicGame的评测方法使用自动化方法,不仅要评估答案的正确性,还要评估得出答案的步骤的正确性,具体包括评估模型的答案准确率(A-Acc)、步骤准确率(P-Acc)和答案步骤准确率(AP-Acc)。每个问题答案的评分是通过比较模型的响应和参考答案来确定的。同样,根据JSON格式约束...
OpenAI o1正确率仅 50%,清华、智谱推出大模型逻辑推理新基准
分类中插图用紫色突出显示涉及数学的类别。LogicGame的评测方法使用自动化方法,不仅要评估答案的正确性,还要评估得出答案的步骤的正确性,具体包括评估模型的答案准确率(A-Acc)、步骤准确率(P-Acc)和答案步骤准确率(AP-Acc)。每个问题答案的评分是通过比较模型的响应和参考答案来确定的。同样,根据JSON格式约束...
...谷歌 Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%
谷歌表示数学衍生版Gemini1.5Pro单个样本MATH基准准确率为80.6%,在对256个解决方案进行采样并选择一个候选答案时(rm@256),准确率达到91.1%。
87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
由此产生的FLAMe-RM模型将原始FLAMe的RewardBench总体得分从86.0%准确率提高到87.8%。值得注意的是,FLAMe-RM-24B是专门在许可数据上训练的性能最佳的生成模型,超过了GPT-4(85.9%)和GPT-4o(84.7%)。FLAMe-Opt-RM虽然FLAM在许多任务中表现良好,但它需要大量的训练才能在某些专门的下游应用程序(例如RewardBench...
谷歌DeepMind全新ToT基准:全面评估LLM时间推理能力
基准测试和数据集:httpshuggingface.co/datasets/baharef/ToTToT的数据集分为三个子集:ToT-semantic包含1850个示例,ToT-arithmetic包含2800个示例,另外还有一个ToT-semantic-large,包含46480个示例,能够在更大的尺度上衡量时间理解的语义和逻辑。ToT的使用方法很简单,先安装Huggingface数据集,然后两行代码导入即可...
多个长文本大语言模型长依赖任务准确率低于40% 通研院-北大提出...
商业模型(Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex)平均只有40%的准确率,开源模型(ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K)只有10%的准确率(www.e993.com)2024年11月24日。论文标题:LooGLE:CanLong-ContextLanguageModelsUnderstandLongContexts?论文地址:httpsarxiv/abs/...
北大AI奥数评测,o1-mini比o1-preview分数还高
更难的奥数邀请赛AIME2024,o1也获得83.3%的准确率。随着现有的数学评测集逐渐被攻克,大家不禁开始好奇:大模型能否胜任更具挑战性的数学竞赛,甚至是奥林匹克数学竞赛?为此,北京大学与阿里巴巴的研究团队联合打造了一个专门用于数学竞赛的奥林匹克评测基准——Omni-MATH。
ACL 2024公布7篇最佳论文,华中科技大学本科生一作成果获奖
因此,该研究采用OCR技术作为对破译成功结果判定的更客观的衡量标准。具体来看,研究人员通过使用ResNet-101骨干网络的简单分类器定制OBS-OCR工具,专门针对包含88,899个现代汉字类别的大型数据集进行训练,以评估模型的输出。结果表明,定制OCR工具实现了99.87%的识别准确率,证明了破译结果的可靠性。
240万亿巨量数据被洗出,足够训出18个GPT-4,全球23所机构联手,清洗...
1.MMLU5-shot准确率2.CORE中心准确率3.EXTENDED中心准确率用DCLM构建高质量数据集接下来,一起看看研究人员是如何使用DCLM构建高质量训练数据集,整个流程如下图4所示。首先,研究人员对表2中几个著名的数据集进行了评价,发现RefinedWeb在7B-1x规模的核心和扩展指标上表现最好。
00后CEO杨丰瑜:耶鲁博士回国创业,五个月造出首款「可量产」人形...
拥有触觉信息能够让机器人在一些更复杂更细腻的任务上表现得更好,大大提高抓取任务的成功率,尤其是在柔性物体的抓取中,触觉的作用更加明显,可以说是从基本不可能完成任务到能够完成任务的质的提升。比如,我们的轮式人形机器人Wanda已经实现捏鸡蛋、抓豆腐、洗衣服等任务,纯靠视觉去做,机器人得不到反馈,是很难执行...