ECCV'24论文提出跨域小样本物体检测新数据集
1)不同domain之间相互远离,增加多样性(domaindiversityloss)2)添加不同domain至同一类别prototype所生成得到的两个变种仍为正样本,添加不同domain至不同类别prototype生成得到的两个变种为负样本(prototypeconsistencyloss)两个loss与finetuning所产生的loss叠加使用进行网络的整体训练。如下T-SNE可视化图说明...
首次!用合成人脸数据集训练的识别模型,性能高于真实数据集
结果显示,当σ过小时(=0.3)和σ过大时(0.3,0.5,0.9),性能出现了大幅下降。从生成的结果上来说,过小的σ无法提供足够的人脸属性变化从而降低模型的泛化能力。过大的σ无法保持身份的一致,这会使模型无法学习到好的表达。因此,选择合适的采样范围至关重要。ID分离度对于精度的影响(Avg.ID...
压缩大型语言模型(LLMs):缩小10倍、性能保持不变
虽然这是一种相对简便的降低模型成本的方法,但过度使用这种技术进行量化(例如,从FP16转换为INT4)通常会导致性能下降,这限制了PTQ的潜在收益[3]。量化感知训练(QAT)在需要更高压缩率的情况下,可以通过使用低精度数据类型从头开始训练模型来克服PTQ的局限性。这就是量化感知训练(QAT)的核心思想[5]。尽管这种方法...
深度学习还不如浅层网络?RL教父Sutton持续反向传播算法登Nature
每次更新时,持续反向传播将执行梯度下降并选择性地重新初始化。前馈神经网络的持续反向传播如算法1所示。处理小批量数据时,可以采取一种更经济的方法:通过对小批量数据上的即时贡献效用取平均值,而不是保持一个运行平均值来节省计算量。在ImageNet上的应用研究使用了包含1000个类别的ImageNet数据库,每个类...
大模型时代的ASR就是不一样!豆包“听力”水平现场评测,方言&小...
在研究测试过程中,团队还观察到,更大模型可以通过增加训练数据量级,不断降低损失值。据团队所了解,目前尚无基于LLM框架的音频编码器ScalingLaws的研究,团队在训练阶段选取了5个量级的模型,通过770万小时无监督多领域纯语音数据训练,观察Loss值、单词错误率(WER)。
goldfish loss:减少训练数据泄漏,提高大语言模型输出的多样性
goldfishloss由于其简单性、可扩展性以及对模型性能影响相对较小,可以成为工业环境中的有用工具(www.e993.com)2024年10月23日。不仅可以让模型不重复产生训练数据,这样可以规避训练数据泄露的风险,也可以让模型产生更多样的结果,丰富模型的输出。但是更大的模型会记住更多的训练数据,因此研究goldfishloss对数十亿或数百亿参数规模模型带来的益处如何...
清华、智谱AI团队:Loss才是涌现的关键,而非模型参数|论文分享
通常情况下,随着训练损失的降低,任务性能会提高,这与模型大小无关。在MMLU、C-Eval、GSM8K和GSM8K-Chinese上,三种大小的模型在预训练损失降至约2.2之前都表现为随机水平,之后随着损失的增大,性能逐渐提高。不同模型大小的performance-vs-loss数据点落在同一条趋势曲线上。也就是说,忽略颜色差异(模型大小),不...
计算机行业深度研究:全球大模型将往何处去?
OpenAI在decoder-onlyTransformer架构的特定配置下进行了详尽的实验,摸清了模型性能(用模型Loss衡量,Loss越小性能越好)与参数(N)、数据集token(D)和投入训练算力(C)的关系——N、D、C是影响Loss最显著的因素,三者增加将带来更好的模型性能。Transformer架构中的层数、向量宽度等其它参数并不...
一文看尽LLM对齐技术:RLHF、RLAIF、PPO、DPO……
OpenAI发现RLHF有助于对齐,但也可能导致模型在某些NLP基准上的性能下降,这个现象被称为「对齐税(alignmenttax)」。其开发的InstructGPT模型有1.3B参数。相反,Anthropic的研究者评估了大小在13M到52B之间的7种不同模型,这些模型的大小按4倍的几何级数增长。他们得出结论说,对较小...
可解释性终极追问,什么才是第一性解释?20篇CCF-A+ICLR论文给你答案
图1:两阶段现象的示意图。在第一阶段,神经网络逐渐消除中高阶交互,学习低阶交互;在第二阶段,神经网络逐渐建模阶数不断增大的交互。当神经网络训练过程中测试损失和训练损失之间的lossgap开始增大时,神经网络恰好也进入训练的第二阶段。我们希望在等效交互框架里提出新的理论,精确预测出神经网络每一个时间点上神...