究竟|9.11比9.8大?大模型们为何会在小学数学题上集体翻车
而阶跃星辰跃问的解答逻辑混乱,它承认“因为0.8大于0.11,所以9.8大于9.11”,但结论仍为“根据数学规则,9.11确实大于9.8”。为什么会在小学题目上翻车?在外界眼中十分强大的大模型,为何会在小学数学题上翻车?Kimi月之暗面向澎湃新闻记者表示,大模型目前还处于非常早期的阶段,非常期待用户在使用中能够发现和报告更多...
当大模型做高考数学选择题:讯飞星火成AI界“掌管多选的神”?
同时,为了防止大模型在论证题目中“一本正经地胡说八道”,考题主要以一目了然的选择题为主,并以公众号“韩老师带你学数学”中人类数学老师做出的标准答案+解析过程作为参照对比。单选环节:多轮对战,讯飞星火“稳坐钓鱼台”1、“命题”基础考点,“送分环节”?首先投喂大模型考生们新课标II卷的选择题第二题...
中国AI大模型测评报告:公众及传媒行业大模型使用与满足研究
通过交叉分析,18岁至26岁,以及45岁以上受访者使用大模型解答语文、数学等问题相对较高,人数占比分别为44.3%、57.14%,远高于平均占比34.96%。五、9款主流产品知名度存差异,昆仑万维天工、智谱清言、百川智能待破圈为探究大模型在日常工作和生活中的应用表现,以及能否带领普通用户走向AGI(通用人工智能),此次报告选...
长郡湘府中学举行讲题大赛,看高一学生露一手
新湖南客户端5月17日讯(通讯员张强张婉仪)“同学们,我们来看一下这道题怎么解答?”“来,看这里,把D点和P点连起来……”在熟悉的课堂上,一般是老师讲学生听,而在长郡湘府中学高一数学课堂上,却是学生讲老师听。为期两个月的“百花齐放满湘府”高一数学讲题大赛进入决赛,14位选手从初赛海选中脱颖而...
陶哲轩作客量子杂志播客——什么造就“好”的数学?
我是SteveStrogatz(史蒂文·斯特罗加茨),这是量子杂志的播客“TheJoyofWhy”,我和我的搭档JannaLevin轮流探索当今数学和科学中一些尚未解答的最大问题。今天,陶哲轩本人将重温数学的永恒问题。陶教授撰写了300多篇研究论文,涉及的数学领域非常广泛,包括调和分析、偏微分方程、组合数学、数论、数据科学、随机...
陶哲轩:什么造就“好”的数学?
我是SteveStrogatz(史蒂文·斯特罗加茨),这是量子杂志的播客“TheJoyofWhy”,我和我的搭档JannaLevin轮流探索当今数学和科学中一些尚未解答的最大问题(www.e993.com)2024年10月18日。今天,陶哲轩本人将重温数学的永恒问题。陶教授撰写了300多篇研究论文,涉及的数学领域非常广泛,包括调和分析、偏微分方程、组合数学、数论、数据科学、随机...
对话陶哲轩:什么造就“好”的数学?人工智能如何改变数学?
我是SteveStrogatz,这是QuantaMagzine播客“TheJoyofWhy”,我和我的搭档JannaLevin将轮流探讨当今数学和科学中一些尚未解答的最大问题。今天,陶哲轩本人将重温这个数学的永恒问题——什么造就“好”的数学。陶教授撰写了300多篇研究论文,涉及的数学领域非常广泛,包括调和分析、偏微分方程、组合数学、数论、数据...
昆仑万维开源130亿参数大模型,0门槛商用、多榜超Llama 2,预训练...
昆仑万维「天工」Skywork-13B系列包括两大模型及150B高质量中文数据集。其中,Skywork-13B-Base模型是基础模型,由3.2万亿个多语言高质量数据训练而成,在CEVAL、CMMLU、MMLU、GSM8K等评测与基准测试上都展现了同等规模模型的最佳效果。Skywork-13B-Math模型,顾名思义,经过专门的数学能力强化训练,在GSM8K等数据集...
钛媒体独家|美团、昆仑万维、面壁智能等9个 AI 大模型获批,今天起...
据悉,出门问问成立于2012年,研发重点放在“特定任务AI模型”上,以语音助手作为切入点,今年4月,出门问问“序列猴子”公布,其以语言为核心的能力体系涵盖“知识、对话、数学、逻辑、推理、规划”六个维度,对外开启邀测。昆仑万维宣布,其双千亿级大语言模型“天工”大模型通过备案,即日起面向全社会开放服务。用户在应用...
洋葱数学更名“洋葱学院”,拓展全年龄段全学科的K12业务
洋葱数学成立于2013年,以趣味教学视频的形式切入在线数学课程,以人机交互的辅导形式专注于中小学理科领域。2019年4月,洋葱学院获得由春华资本领投,昆仑万维等新老股东跟投的D轮3亿元融资,迄今为止,洋葱学院已累计完成6亿元融资。2017年,洋葱学院(原洋葱数学)成立AI实验室,围绕其数字化视频课程内容,自主研发了...