陶哲轩:纳维-斯托克斯方程或已不再是流体的良好模型
这是数学模型中的“爆炸”现象,属于特定的数学特性(流体能量集中),但并不意味着现实世界会发生实际的爆炸。就像挥鞭时,鞭子尖端的速度会超过音速,发出噼啪声,这在数学上称为“爆炸”,但实际上只是音爆效应。这也说明在某些情况下,纳维-斯托克斯方程可能不再是流体的良好模型。A:谷歌DeepMind几个月前宣布,其人工...
聆听窗外声音 遇见奇妙数学
比如八年级数学下册教材中有一阅读材料“费马大定理”,在学习此内容时我向学生推荐阅读英国作家西蒙·辛格的著作《费马大定理》,这本书详细介绍了费马大定理的历史背景和证明过程,还通过生动的故事叙述展现了数学家们对真理的追求和探索精神。学生在读后感中写道:数学是如此严谨,却又如此浪漫,这是一个兼具理性与感性的...
OpenAI: AI基础设施分析师称o1模型在数学、物理和编程能力有巨大...
06.AI基础设施分析师称,OpenAIo1模型在数学、物理和编程能力方面有很大提升,其准确性和条理性已超过人类博士生水平,较ChatGPT4o模型能力有8倍提升。该模型核心为强化学习和思维链推理能力相结合,在处理端不断强化学习,持续优化网络节点,同时会模拟人类思考问题的过程,将问题拆分成不同步骤,然后推演问题答案。海...
全球开源大模型新王!阿里Qwen2.5来了,性能跨量级超Llama3.1
Qwen2-Audio大规模音频语言模型则是一款能听懂人声、音乐、自然声音的开源模型,支持语音聊天、音频信息分析,支持超8种语言和方言,在主流测评指标上全球领先。博客地址:httpqwenlm.github.io/blog/qwen2-vl/3、专项模型:最先进开源数学模型亮相,赶超GPT-4o用于编程的Qwen2.5-Coder、用于数学的Qwen2.5-Math...
一文看懂 OpenAI 最强模型 o1:怎么用好,为何翻车,对我们意味着什么
原因可能和强化学习有关,不像代码、数学等场景有标准的答案,文无第一,语言任务往往缺乏明确的评判标准,难以制定有效的奖励模型,也很难泛化。哪怕在o1擅长的领域,它也不一定是最好的选择。一个字,贵。AI辅助编码工具aider测试了o1引以为傲的代码能力,有优势,但不明显。
9.11和9.9哪个大?简单数学题8家AI大模型平台都翻了车
询问字节豆包,它不仅给出了答案,还举了生活中的例子方便理解,单看似有理有据实则胡说八道(www.e993.com)2024年11月9日。豆包举例认为,假设有两笔钱,“9.11元比9.9元多0.21元”,并且测量长度时“9.11米要比9.9米长”。商汤商量大模型首先给出了错误答案,当追问具体是如何比较的后,它在推演过程中成功得出小数0.11小于0.9,但...
Meta发布新版Llama 3模型:支持8种语言对话,能解决更难的数学问题
Meta的公告显示,Llama3.1在Llama3的基础上进行了重大更新,Llama3.1主要用于驱动聊天机器人,可以进行八种语言的对话,编写更高质量的计算机代码,并可以解决更复杂的数学问题。Llama3.1405B模型包含4050亿个参数,是近年来参数规模最大的模型之一。通常,参数大致对应于模型的解决问题的能力,参数越多的模型通常表现...
OpenAI草莓模型深夜突袭!理化生达博士生水平,比GPT-4o强多了
智东西9月13日报道,今日凌晨,OpenAI突然发布传说中“草莓”模型的部分预览版——OpenAIo1预览版。这是一系列全新AI模型,能推理复杂的任务,解决比以前科学、编程、数学模型更难的问题。▲OpenAI发布o1模型OpenAIo1是全新系列AI模型的第一款。与以往模型不同的是,它拥有进化的推理能力,会在回答前进行缜密思考,生成...
9款大模型做这道高考数学题:8家都翻车了 只有ChatGPT一次做对
我们再用百度文心一言、阿里通义、腾讯元宝、字节豆包、360智脑、ChatGPT,再加2款国产大模型产品百川智能百小应、零一万物万知,另外还有专攻K12数学的好未来(学而思母公司)的九章大模型,总计9大神器,来做2024年高考数学题,看看他们的水平如何,会不会翻车。
翻车了!9.11和9.9哪个大?记者实测12个大模型8个都答错
大部分大模型在问答中都错误地比较了小数点后的数字,认为9.11大于9.9,考虑到数字涉及的语境问题,记者将其限定为在数学语境下,如ChatGPT这样的大模型也照样答错。在这背后,大模型数学能力较差是长期存在的问题,有行业人士认为,生成式的语言模型从设计上就更像文科生而不是理科生。不过,针对性地语料训练或许能在未来...