探索智能纪元:大模型的起源、现状与未来
上下文推理同时,随着模型尺寸的增长,涌现出上下文推理等一些未经训练而具备的能力,这些涌现能力的出现表明大模型可能内化了某些更接近人类的认知和学习机制。这些涌现能力的本质、触发条件和可控性是当前研究的热点,需要更多地从认知科学和神经科学的角度进行探索,并给出更加合理的解释,帮助人们理解这种能力涌现的原理。...
从物理学到人工智能:用哈密顿力学提升AI推理能力
这一发现为优化AI推理算法提供了新的思路,即通过引导AI系统朝向能量较低、轨迹更平滑的方向,提高其认知过程的质量和效率。轨迹的曲率和挠率分析也提供了对推理过程"形状"的重要见解,有效推理链表现出较低的曲率和挠率,表明推理路径更直接和集中;而无效链则表现出更高的曲率和挠率,可能表明更复杂或不连...
基于认知理论的 AI 架构探索
这篇文章提出了“Self-Consistency”方法,用于改进语言模型的链式推理性能。通过生成多样化的推理路径并汇总一致答案,该方法显著提升了算术和常识推理任务的准确率(提升幅度最高可达17.9%)。自一致性无需额外训练或监督,适用于不同规模的语言模型,是一种简洁有效的推理增强策略。5.寻找理论基础??1956年秋,在...
360视角:大模型幻觉问题及其解决方案的深度探索与实践
最后,对于不同的索引数据类型,使用不同的query查询技术进行混合建设,比如关键词搜索、基于embedding的语义相似度检索、text转SQL后的结构化查询、text转graphSQL的N元组查询等,对于查询结果进行重排序,将重排序后的结果给到大模型作为上下文信息,由大模型进行推理。3.query预处理(1)sub-query对...
中金| AI十年展望(二十):细数2024大模型底层变化,推理优化、工程...
本文概览当前大模型科研领域2024年的主要方向,旨在为大模型技术发展趋势、应用落地节奏研判提供底层视角的支持。主要探讨内容包括:Q-STaR路径探索、原生端到端路径突破、以DeepSeek为代表的算法创新引领降本浪潮、Apple在端侧部署推理优化,并介绍以Mooncake为例的集群架构优化思路和主流厂商的合成数据探索。
打造最沉浸的古风体验,《如鸢》正在探索赛道的更远边界
一方面,产品体量偏小,从安装游戏包体开始,到正式体验内容的过程,都感受得到轻量化的设计思路,玩家们的体验门槛较低;另一方面,游戏内又存在着许多精心打磨的细节,比如前面提到的文案、碎片化信息等,处处是刀刃,从细节中透露出来的古风感足够沉浸和真实(www.e993.com)2024年10月18日。因此,在我看来游戏的核心思路在于:它并不是要做一款能...
Mistral AI:探索LLM推理的吞吐、时延及成本空间
我检查了两个用于部署模型的开源库,它们仍在运行Python代码,在这一规模下,模型会产生很多额外开销。我还研究了FasterTransformer项目,它没有额外开销,但部署起来会比较困难。上述信息主要来自博文《语言大模型的推理演算》。3不同配置下的吞吐、时延与成本现在让我们谈谈吞吐量-时延平面图,这通常是我评判这些...
o1诞生对下一轮AI爆发的启示:技术远远没有收敛,仍在演进丨智源...
从这一点上来讲,o1带来了非常重要的技术,是面向未来AI的重要的里程碑。o1有着更长的思维链、更长的思考的时间、更强的探索能力。这意味着在训练和推理这两个阶段都有相应的突破。在训练阶段,我们需要能够为o1模型提供更丰富的、全程的、稠密的反馈信号。我认为有两个非常重要的关键技术:(1)数据合成。
探索之路:人工智能发展的回顾与展望
人类对人工智能道路的探索始于1956年。当时在美国召开了人工智能研讨会,来自数学、计算机科学、认知心理学、经济学和哲学等不同领域的10位专家经过八周的讨论定义了人工智能。他们主张通过符号推理、符号表示来做一个能像人那样思考的机器。在这次会议上,纽维尔(Newell)和西蒙(Simon)演示了一个名为“逻辑学家”的程序...
ACL 2024 Oral|我们离真正的多模态思维链推理还有多远?
在上下文学习方面,研究者们探索了不同的示例策略对模型性能的影响。具体而言,研究者们评估了纯文本示例以检测模型在多模态推理时是否会进行文本形式的学习,同时还评估了多模态示例以检测模型在多模态推理时是否会利用多模态示例进行上下文学习。纯文本示例无法提高...