大模型「强崩溃」!Meta新作:合成数据有「剧毒」,1%即成LLM杀手
可以看到,即便是少量的合成数据也会延迟ScalingLaw的进展,作者预计,这最终会导致最终ScalingLaw提前达到饱和状态或至少出现非常糟糕的指数(即小指数)。图8(右)所示的关于模型尺寸的影响。在数据集的某个阈值前,较大/较深的模型保持较低的测试损失;但超过一定阈值后,较小的模型反而由于减少过拟合而占了上风。...
机构行为视角下的债券交易领先因子探寻与神经网络收益率预测
一是根据数据量选择适合的层数和神经元个数以防止过拟合;二是模型激活函数根据任务性质选择了Sigmoid非线性函数,解决了阶跃函数在0点无偏导数的问题;三是在目标函数中加入了正则项,以提高数值稳定性和模型的泛化能力。训练过程中,本文首先尝试了不同的模型参数的初始化方法,发现区别不大,选择比较常见的对称区间均匀...
自动化、可复现,基于大语言模型群体智能的多维评估基准
基于这种评估进行模型优化可能会导致所有模型过度拟合GPT-4的偏见。为了结合这两种方案的优势,通过利用“群体智能”(ChatbotArena依赖于人群智慧)来实现更稳健且更少偏见的评估,同时使该过程自动化且可扩展到多维度能力比较,Maitrix发布了DecentralizedArena。原文地址:httpsde-arena.maitrix...
华泰金工 | 基于ETF资金流构建行业轮动策略
有明确多空观点的投资者交易频率又不会太高,由此可知,ETF申赎的主要参与者具有很强的异质性,既没有统一的方向,也不存在趋同的交易模式,因此ETF的份额变动通常难以清晰反映某类投资者的观点,导致日常的ETF资金净流入数据看起来并没有那么的“Smart”。
VisionTS:基于时间序列的图形构建高性能时间序列预测模型,利用...
表1:VisionTS与ML/DL模型在长期预测任务中的性能比较重要发现:VisionTS在总体评分中表现最佳,赢得了最多的胜利。预训练模型(无论是在图像还是时间序列上预训练)通常表现优于其他模型。这里使用的Monash数据集(Weather和Electricity)并不包含在MOIRAI的预训练数据中,这使得MOIRAI在这种情况下也可以被视为零样本预...
深度学习揭秘系列之一:基于量价与基本面结合的深度学习选股策略
但非线性模型的优势在基本面因子上不突出,MLP模型长期表现与Lasso模型几乎持平(www.e993.com)2024年10月23日。我们认为可能有几个原因:1)基本面因子之间结合的逻辑偏线性,而量价因子的非线性组合可能包含增量信息。2)部分基本面因子在财报真空期值不变,而标签Y却每天有变动。3)基本面因子数量相较于量价因子偏少。
临床预测模型步骤详解:关于预测模型的样本量
过拟合主要发生在样本量过小时,特别是当候选的预测因子数量相对参与者数量或结局事件数量来说较大时。过拟合的后果是,模型的表面预测性能(从开发数据集本身来看)是乐观的(即过高),而在来自同一目标人群的新数据集中的实际预测性能较差。收缩法(Shrinkage,也称为惩罚或正则化)可以通过减少模型的预测可变性来处理过拟...
4万字解读有关『端到端自动驾驶』的概念混淆、谎言及“路线之争...
??网络带宽不足。世界模型涉及到的数据量非常大,而当前的网络带宽尚无法满足大规模数据实时传输的需求。??运行速度太慢。由于输出图像需要的token比较多,所以,世界模型的运行要速度要比大语言模型慢得多。商汤绝影智能驾驶副总裁石建萍、辰韬资本执行总经理刘煜冬等多位受访者均认为,世界模型在自动驾驶场景的应用...
如何理解金融数据的复杂性及数据处理的重要性?
1、金融数据的复杂性:低信噪比金融数据中噪音比例高,提取有效信号的难度较大,模型如果调整不够得当,就容易学习“噪音”。由于这一特性,量化投资在模型开发和调校时尤其强调避免过拟合。同时,处理金融数据时要非常注重逻辑。以A股为例,不同股票具有不同涨跌停规则,此外新股上市以及复牌等行为都需要特殊处理,在逻辑...
一文看遍AI行业大模型
第一,专业性指大模型处理特定领域问题或任务的准确性与效率。专业性要求越高,越需要针对特定领域数据进行训练,可能造成模型过拟合而降低泛化能力。此外,增加的数据收集和训练也会增加成本、降低经济性。第二,泛化性指大模型处理训练数据集之外新样本的表现能力。大模型泛化性要求越高,越需要多样化的大规模训练数据集...