MIT系初创打破Transformer霸权!液体基础模型刷新SOTA,非GPT架构...
液体神经网络(LiquidNeuralNetworks,LNN)是团队提出的一种全新架构,可以使人工「神经元」或用于转化数据的节点更高效、适应性更强。与需要数千个神经元来执行复杂任务的传统深度学习模型不同,LNN只用较少的神经元——结合创新的数学公式——就可以达到相同的结果。LiquidTime-constantNetworks有趣的是,MIT...
特斯拉智能驾驶|从视觉优先的技术路径到未来的挑战?
自2020年FSDBeta版本在北美推出以来,特斯拉通过大量真实驾驶场景中的数据不断优化其神经网络模型。相比传统的规则驱动型自动驾驶系统,特斯拉采用了端到端的神经网络架构,通过大量数据训练模型来代替复杂的规则编写,极大地提升了自动驾驶系统在复杂场景下的适应能力。特斯拉在感知层提出了“BEV+Transformer+OccupancyNetwork...
Liquid AI 发布 LFMs 系列 “液态神经网络” 通用 AI 模型 能处理...
模型架构创新LiquidAI团队发明了一种叫做“液态神经网络”的架构,这种系统受到大脑的启发。与传统神经网络不同,它的特别之处在于,液态神经网络即使在训练完成后,仍然能够适应新的数据和环境变化,不需要重新调整。这意味着它在处理复杂任务时能够更加灵活和高效,比如分析连续时间内的数据(例如天气预测或股票走势)。
NeurIPS 2024 | FaceChain团队新作,开源拓扑对齐人脸表征模型TopoFR
现存的人脸识别工作主要关注于设计更高效的基于Margin的损失函数或者更复杂的网络架构,以此来帮助卷积神经网络更好地捕捉细腻度的人脸特征。近年来,无监督学习和图神经网络的成功已经表明了数据结构在提升模型泛化能力中的重要性。大规模人脸识别数据集中天然地蕴含着丰富的数据结构信息,然而,在人脸识别任务中,目前还...
给机器人装上“虫脑”?非Transformer液态神经网络终于来了
非Transformer液态神经网络终于来了机器之心报道机器之心编辑部一个受线虫启发的全新架构,三大「杯型」均能实现SOTA性能,资源高度受限环境也能部署。移动机器人可能更需要一个虫子的大脑。在大模型时代,谷歌2017年开创性论文《AttentionIsAllYouNeed》中提出的Transformer已经成为主流架构。
给机器人装上「虫脑」?非Transformer液态神经网络!
非Transformer液态神经网络!来源:机器之心Pro机器之心报道机器之心编辑部一个受线虫启发的全新架构,三大「杯型」均能实现SOTA性能,资源高度受限环境也能部署(www.e993.com)2024年10月23日。移动机器人可能更需要一个虫子的大脑。在大模型时代,谷歌2017年开创性论文《AttentionIsAllYouNeed》中提出的Transformer已经成为主流架构...
苹芯科技杨越:拆解存算一体技术进阶,解读大模型芯片的四个优化...
在路线二当中,最重要的是产品定义的能力。大家的诉求更多是数据安全、通信延迟等,更关心的是芯片面积、功耗。产品形态上,大家则将更多重心放在AI手机、AIPC,以及AIoT领域从神经网络到大模型能力的升级。五、大模型芯片架构,可以从四大方向着手优化针对大模型的芯片架构,从宏观上看,我们有4个优化方向。
神经网络架构“殊途同归”?ICML 2024论文:模型不同,但学习内容相同
新智元导读深度神经网络有多种规模和架构,大家普遍认为这会影响到模型学习到的抽象表示。然而,UCL两位学者发表在ICML2024上第一篇论文指出,如果模型的架构足够灵活,某些网络行为在不同架构间是广泛存在的。自从AI跨入大模型时代以来,ScalingLaw几乎成为了一个共识。
大模型最强架构 TTT 问世!斯坦福 UCSD 等 5 年磨一剑, 一夜推翻...
使用TTT层训练神经网络TTT层的前向传播,也有相应的后向传播。TTT层与RNN层、自注意力机制有着相同的接口,因此可以在任何更大的神经网络架构中替换它们。值得一提的是,训练带有TTT层神经网络的方式,与训练任何其他Transformer模型相同。
用神经架构搜索给LLM瘦身,模型变小,准确度有时反而更高
IntelLabs的这个研究团队猜想:也许可以通过神经架构搜索(NAS)来降低模型的大小和复杂性。单次NAS方法往往需要一次训练一个超级网络(super-network)并允许使用权重共享原理进行子网络采样。但是,从头开始训练这些超级网络成本高昂,因此LLM领域少有探索。InstaTune等技术则是利用现成的预训练权重,在微调阶段...