长序列预测 & 时空预测万字长文:一文带你探索多元时间序列预测的...
这和CV或者NLP完全不同,这两者通常共享某些常见的模式,例如ImageNet和CoCo数据集的视觉模式是相似的,不同文本数据集的模式也是相似的,并且这些数据集的模式通常是丰富且封闭的:数据的语义信息通常是固有的,不随未知的外部因素变化。而时间序列完全相反。一方面,不同数据集(Domain)的数据模式可能完全不同,另一方面,...
因果干涉的密度估计归一化流
与半参数和非参数方法不同,我们的完全参数化方法具有几个实际优势:它自动提供适当归一化的密度估计器,允许从估计的密度中进行采样,并且通常能够很好地处理大型和高维数据集。然而,据我们所知,还没有用于IDE的完全参数化深度学习方法。为了实现这一点,我们稍后对(Kennedy等人,2023)中用于半参数IDE估计的理论结果进行了...
深度学习揭秘系列之一:基于量价与基本面结合的深度学习选股策略
选股因子是基于金融理论和实证研究构建的,量价因子能够对股票的价格走势和成交变化进行描绘,让模型能够学习不同量价情况下股票的收益分布特征,而基本面因子,例如EP、BP等则反映了公司估值水平,提供了量价维度外的另一个重要的视角。1.量价因子数据集我们采用Github上的开源项目Qlib所集成的Alpha158量价因子进行模...
数据并非都是正态分布:三种常见的统计分布及其应用
中心极限定理指出,大量独立同分布的随机变量之和趋于正态分布,不论原始变量的分布如何。在线性回归中,如果样本量足够大,即使残差不是完美的正态分布,估计的参数的分布也会接近正态分布。这使得正态分布的假设在实际应用中更具弹性。2、统计推断的简便性正态分布假设简化了许多统计推断任务。例如,如果残差是正态分...
中金:中金ESG评级2023Q4数据更新
从A股全样本来看,中金ESG评级2023Q4期ESG总得分近似右偏分布,全样本个股的ESG得分较为集中在1-7分之间,全样本均值为3.90,中位数为3.48。由于中金ESG评级体系对不同行业采用差异化的评价框架,ESG得分在行业间并非完全可比,全样本的评级分布仅可作为参考。
使用归一化流估计数据的内在维度
更一般地,如果数据集位于具有不同内在维度的流形的并集上,任务是对于给定点x*估计d的局部值(www.e993.com)2024年11月5日。然而,对于现实世界的数据集,样本会被噪声污染,使得数据集成为全维的,即d=D。在这种情况下,估计内在维度对应于估计在观察到的数据集中存在多少主要的自由度。在下文中,我们将这些自由度称为大变化性的方向。
数据更多更好还是质量更高更好?这项研究能帮你做出选择
另一方面,当计算规模远超过所用训练数据时,有限高质量数据的效用会下降,就需要想办法弥补这一点。这会得到不那么激进的过滤策略,即数据量更大时性能更好。该团队进行了实验论证,结果表明这个用于异构网络数据的新扩展律能够使用DataComp的中等规模池(128M样本)预测从32M到640M的各种计算预算下的帕累托最...
抛弃高精度地图旧模式,走向视觉感知新时代?
6、标准和协议缺乏统一:自动驾驶车辆所需的高精度地图需要与车辆的传感器和控制系统进行有效的集成。然而,由于缺乏统一的标准和协议,不同高精度地图供应商和车辆制造商之间的互操作性存在困难。这使得地图数据的交换和使用变得复杂,导致了更高的成本和技术难度。缺乏统一的标准和协议会阻碍地图数据的无缝集成和共享,限制...
揭秘因果推断与机器学习的交汇点:新时代的社会学视角
首先,不同研究设计和识别策略所依据假设的可信度会因应用而异。适用于因果任务的机器学习方法有助于估计,但它像其他估计工具一样,并不能确保准确识别因果效应。其次,因果效应的异质性是常态,它使得推断变得复杂。研究者可能会付出相当大的努力来建立一个具有较高内部效度(即因果效应估计量的可信度),但外部效度较低...
中国高等教育将在2038年左右迎来历史性“生源拐点”
根据《中国人口和就业统计年鉴(2021)》数据显示,2020年全国男性和女性出生时平均预期寿命分别为75.37岁、80.88岁,较1990年平均增长约0.3~0.4岁。近年来随着生活水平和医疗条件的不断提升,人口预期寿命有所延长,且达到一定水平后将逐渐放缓。因此,本研究假定2024—2032年我国人口预期寿命呈线性变化,当位于75~79岁时,...