《微观量化百问》第十二期 金融数据的复杂性及数据处理的重要性
但在国内,由于金融市场发展阶段的差异性,具体表现为获取难度偏大(高价值数据获取难、易获取数据质量低)、成本相对较高,非结构化数据的处理技术还不够成熟等原因,目前另类数据领域仍属蓝海。除了与多家数据第三方保持联动外,不少主流私募也在以较快的速度不断搜集、积累和持续探索另类数据,以寻找多元化、差异化的Alph...
大模型「强崩溃」!Meta新作:合成数据有「剧毒」,1%即成LLM杀手
从直觉上理解,合成数据导致「模型崩溃」的底层逻辑,是由于模型开始对合成数据中的模式进行过拟合,而这些模式可能无法代表现实世界数据的丰富性或可变性。如果进行连续的迭代训练,这种反馈循环会导致模型强化合成数据中存在的错误、偏差或过度简化,因而损害了对现实世界的准确表示能力和泛化能力。总体而言,这篇文章旨在回...
《微观量化百问》第十四期丨模型和模型训练中的过拟合
产生原因是市场规律发生变化,或者对回测阶段数据噪音的过度学习。回测过拟合难以根除,相对合理的解决方案是借助量化指标检验回测过拟合程度。Q56:如何预防过拟合?当模型过于复杂、参数数量过多、学习能力太强时,容易出现模型对于训练集以外的数据泛化能力差,表现为过拟合。由于大多数机器学习模型并不是专门为金融时间...
长序列预测 & 时空预测万字长文:一文带你探索多元时间序列预测的...
这样的异质性可以解释为何常见的先进神经网络(如Transformer模型)与基础网络(如Linear模型)表现出矛盾的结果:Transformer模型虽然强大,但它们往往基于较强的Bias,在存在分布漂移或模式不明确的数据集上容易过拟合。而线性模型因其简单性,虽然欠拟合复杂模式,但在面对这些数据集时却能保持较好的鲁棒性。因此,我们得出假设...
RAPTOR:多模型融合+层次结构 = 检索性能提升20%,结果还更稳健
Bagging(BootstrapAggregating):在训练数据的不同子集上训练多个模型。每个模型独立进行预测,最终输出通过平均或投票决定。Boosting:Boosting按顺序训练模型,其中每个新模型都专注于纠正其前任的错误。Boosting可以显著提高准确性,但可能增加过拟合风险。Stacking:在stacking中,多个模型被训练来进行预测,元模型从它们的输出...
债市供需 | 机构行为视角下的债券交易领先因子探寻与神经网络收益...
模型构建上,本文根据训练数据实际情况对神经网络模型做了适应性调整(www.e993.com)2024年11月4日。一是根据数据量选择适合的层数和神经元个数以防止过拟合;二是模型激活函数根据任务性质选择了Sigmoid非线性函数,解决了阶跃函数在0点无偏导数的问题;三是在目标函数中加入了正则项,以提高数值稳定性和模型的泛化能力。
NeurIPS 2024 | 标签噪声下图神经网络有了首个综合基准库,还开源
值得注意的是,我们发现两种稳健损失函数,主动被动损失(APL)和对称交叉熵(SCE),在??些数据集上略微增强了基线模型的稳健性。这种改进可能是由于它们能够减少对错误标记样本的过拟合,而它们的独??同分布假设则限制了这种改进的幅度。因此得出结论,仅仅将LLN方法应用于GNN并不能实现对标签噪声稳健的图学习解决...
数据即模型,聊聊最近发布的小模型
对每个环节的不同选择,在控制其他环节不变的前提下,通过采样少量数据训练小模型来做快速的对比验证。需要注意的是对比小模型的时候选取合适的标准至关重要,稳定(不受少量样本影响),单调(在数据集从小到大的过程中保持性能爬升),能够全面体现数据质量,但避免数据过拟合在这些指标上。
阻止他,就能把终结者扼杀在摇篮!2024诺贝尔物理学奖解读
刚才提到的霍普费尔德网络,一个数据容易陷入到局部最低的小低谷里面出不来,如果这个数据是具有温度的气体分子呢?那么它是会不断运动的,即便是不小心到了一个小低谷里面,它仍然有可能翻出去,直到进入全局的那个低谷。如果用人工智能的术语来说,那就是霍普费尔德网络更容易出现过拟合,但是在霍普费尔德网络虚拟出来的那个...
深度学习揭秘系列之一:基于量价与基本面结合的深度学习选股策略
风险因素:结论基于历史数据,在市场环境转变时模型存在失效的风险。01准备篇深度学习理论1.神经元与激活函数伴随着数据量的与日俱增以及计算能力的大幅提升,深度学习模型近年来发展十分迅速,在图像识别、语音识别、自然语言处理等多个领域不断取得突破。