医渡科技2025财年中期经调整EBITDA持续转正,盈利水平接近去年全年

2024年11月22日 - 新浪

报告期内,基于5000亿+经过精细化清洗和配比的训练TOKEN语料,公司持续进行医疗垂直领域大语言模型的研发和训练。在综合考虑行业应用成本以及模型基本能力需求后,公司聚焦70B参数的模型训练,并成功推进了医疗智能体的技术演进。今年5月,在由上海AI实验室和上海市数字医学创新中心推出的权威评测平台MedBench评测中,医渡科技...

详情

从预训练转向推理,大模型厂商寻找新的Scaling Law

2024年11月22日 - 钛媒体

TheInformation指出,OpenAI下一代ChatGPT5的训练出现了重大瓶颈,原因之一是高质量文本数据越来越少。下一代要发布的旗舰模型Orion,在预训练阶段只用了20%的训练量,就达到了GPT4的水平,能力上升的很快,但OpenAI的研究者发现,后边增加训练量,Orion的水平提升却很慢很微小,没有实现从GPT3到GPT4的质得飞跃,这或许...

详情

奔驰追赶智能化:训练数据引入“中国老司机”,换道“端到端”大模型

2024年11月19日 - 东方财富网

奔驰官方称,新智驾版本对传感器硬件进行了升级,搭载英伟达Orin芯片(单颗算力达254TOPS);同时,算法也从规则逻辑迭代到了端到端模型,在不依赖激光雷达、高精地图下,实现点到点的智驾功能。同时,奔驰官方也在积极布局云端训练算力,目前GPU的集群里,拥有超1万张显卡。在最新的这套智驾系统里,奔驰的感知训练数据均采用...

详情

智算中心太“多”,大模型不够用了 | 钛媒体深度

2024年11月21日 - 澎湃新闻

目前大模型所需的算力主要有三种,其一是超大规模的大模型训练,需要的算力集群越来越大,智算中心供不应求;其二是常规的大模型训练/微调,一般的裸金属或者算力集群都能满足;其三是推理需求,用云主机等都能满足,未来需求有望稳定增长。可以看出,除了第一种基础大模型的训练需求之外,其余的大模型算力需求并不十分紧缺,...

详情

港科大校董会主席沈向洋:通用大模型会越来越少,行业大模型会越来...

2024年11月18日 - 新浪

“从国内的整体发展来看,是到7月底,中央网信办批准的大模型大概有200个,其中只约有1/3是通用大模型,2/3是行业大模型。我预测未来通用大模型的数量会越来越少,占比越来越小,而行业大模型数量会越来越多。”沈向洋表示。他补充道,未来AI最大的超级应用就是AI智能体,即人类提出问题,AI就能解决掉。这个...

详情

...大湾区如何打赢AI追逐赛的下半场|算法|算力|沈向洋|大模型|...

2024年11月20日 - 网易

现阶段,大模型依然在沿着规模法则(scalinglaw)在发展,也就是堆叠的参数、投喂的数据越多,模型就越强大(www.e993.com)2024年11月24日。但质疑的声音不时出现,即使互联网的数据浩如烟海,但迟早会有用完的一天,而且靠堆参数训练模型,这样的方法会越来越不经济。规模法则还是一条可行的路吗?

详情

新Scaling Law浮出水面!OpenAI员工爆料下一代模型Orion性能堪忧

2024年11月15日 - 百家号

“直觉可能是，随着你在更多数据上进行训练，越来越多的知识被压缩为权重，给定的扰动将对性能造成更大的损害。”下面是一个固定语言模型，该模型对各种数据预算进行了过度训练，最高可达300亿个token，之后进行训练后量化。这表明，更多的预训练FLOP并不一定能带来更好的生产模型。具体的实验数字和图示如下...

详情

李开复:最新预训练模型Yi-Lightning超越GPT-4o,中美顶尖模型只差5...

2024年10月16日 - 钛媒体

李开复:做好预训练模型是一个技术活,而且要非常多有才华的人在一起工作,慢工出细活。需要有懂芯片的人、懂推理的人、懂基础架构的人、懂模型的人、很好的算法同学,一起做出来。如果一个公司能有幸拥有这么多优秀的人才,能够跨领域的合作,我相信中国绝对可以做出世界排名前十的预训练的通用模型,但不是每家公司...

详情

零一万物发布新的预训练模型,李开复回应AI六小虎困境传言

2024年10月16日 - 鞭牛士

在Yi-Lightning的发布会上,李开复提到:“据我了解,目前“AI六小虎”在融资方面都有足够的资金支持,可以承担起预训练模型的运行成本。因此,只要这些公司能够吸引到足够的优秀人才,并有决心进行预训练模型的开发,资金和芯片资源都不会成为障碍。尽管这样的公司可能会越来越少,但只要他们能够持续投入,中国大模型公司就有...

详情

智算中心太“多”,大模型不够用了

2024年11月21日 - 新浪

缺算力是真的,空置也是真的智算中心并不是绝对意义上的“多”,无论从各种视角看,真正适配大模型训练的算力在未来一段时间仍有很大的缺口,大规模智算中心的建设不会停止。以OpenAI为代表,ChatGPT发布两年来,大模型产业发展的脚步似乎变慢了,不排除这是大模型新一轮爆发前的蛰伏,在“ScalingLaw”(规模法则)...

详情

查看更多

模型训练很慢
模型训练越来越慢的原因
模型训练越来越慢怎么回事
模型训练不动
模型越训练效果越差
模型训练时间太长
模型训练效果不好
模型每次训练结果不一样
模型训练需要多久
模型训练越来越慢怎么办