高维变换在建模、回归和分类中的应用
5.2回归的经验变换估计在本节中,我们利用第3.5节中的经验变换估计来构建回归的超向量模型,即,为了直观展示判别方法,我们再次参考图4A。生成方法的可视化效果见图7A,图中描绘了通过最大似然估计(MLE)、期望值估计(EVE)以及一个对称的0.95置信区间预测的分布。可以看出,MLE更容易对观测数据过拟合,而EVE则更具正则...
中金:XGBoost因子筛选与合成的指数增强应用
通过对比回归和分类模型、分析特征筛选的必要性、特征间的相关性,以及特征重要性指标,我们验证了XGBoost算法在因子筛选和合成中的应用潜力,并且在沪深300、中证500和中证1000指数(6354.988,-135.16,-2.08%)(6354.9883,-135.16,-2.08%)增强中进行了不同参数和不同模型的较为全面的测试。树模型用于因子合成与筛选的五...
万字综述:大语言模型将为神经科学带来哪些前所未有的机会?| 追问...
而另一个人可能会看到它为“反思”或“怀旧”然而,由于LLMs是自回归的、状态依赖的,并且具有温度等超参数(参见前一节“大型语言模型解决方案的数据科学视角”),它们在处理相同提示时的输出虽不尽相同,但如果实验条件保持一致,其答案主要限制在语义空间的一个狭窄区域内。
速来!因果与大模型的双向赋能丨因果科学第五季强势回归
一方面,大模型可提供其丰富的世界知识,使得我们能够更加准确地进行因果学习;另一方面,因果科学也为大模型提供了更加深入的理解和解释能力,不仅能使得大模型更好地模拟人类的智能行为,还能够让我们理解这些行为背后的原因和机制。然而,因果科学与大模型的结合也面临着诸多挑战,因此本次读书会旨在汇聚相关领域的学者,共同探...
【华安证券·金融工程】专题报告:企业利润分配策略:短期股东回报...
由于未分配利润变化值和现金分红金额可能跨越多个数量级,我们采用对数变换来压缩数据范围,有效减少了极端值的影响,并促使数据分布更趋近于正态分布。对于数据中出现的负值样本,我们进行了剔除处理。经过上述处理,我们的回归模型更新为:在模型中,未分配利润变化值和现金分红金额经过对数变换处理,而ROE(净资产收益率)和D...
数据并非都是正态分布:三种常见的统计分布及其应用
正态分布假设简化了许多统计推断任务(www.e993.com)2024年12月18日。例如,如果残差是正态分布的,那么回归系数的抽样分布也将是正态的。这使得使用标准的t检验和F检验来评估模型参数的显著性成为可能,因为这些测试依赖于正态性假设来推导其概率分布。3、最小化估计误差正态分布假设支持最小二乘法(OLS)估计的有效性。当残差正态分布时,OLS估计...
徐向艺、张天宇、方政 | 逆向混改助力民企创新——国有资本参股对...
为了验证假设H1和H2,本文构建以下回归模型,并同时控制行业固定效应(Vt)和年份固定效应(ηm)来检验国有资本参股对民营企业双元创新投入的影响。其中,解释变量为国有资本参股(Statei,t),被解释变量为双元创新投入(RDIi,t/RDEi,t),若解释变量系数显著为正,则假设H1和H2得到验证。
基于预期损失测度的金融市场风险传染效应探究
中国金融市场发展尚不成熟,金融市场有效性还有较大的提升空间,因此单一的概率分布假设从长期来看可能不符合中国金融市场的实际情况,使用纯参数法估计中国金融市场风险可能存在模型误设的风险。而VaR存在尾部风险度量不充分、不满足次可加性等缺陷。在对比各风险测度指标的优缺点后,本文采用ES来度量金融市场的风险水平。
研究| 王洪川 陈怡莹 王聪:人口老龄化背景下体育消费的健康效应...
为缓解遗漏变量的内生性干扰,提高回归模型的估计效率,引入消费者属性,表示一系列对医疗消费有影响的控制变量。由于被解释变量和解释变量均为不同类别消费占总消费的比例,选取总消费作为控制变量可能会存在共线性问题。通过VIF检验以删除存在共线性问题的控制变量,控制变量的VIF值均低于7,表示模型中不存在共线性问题。
三个理解2023年GDP数据的维度
去年的市场拐点大致位于第二季度4-5月,和净利润增速拐点基本对应。我们可以将DDM估值模型分解为三条线索:盈利增长、无风险利率和风险偏好。我们估算得2024全A归母净利润增速有望落在3.0%-3.5%区间,同时结合我们对于全年政策利率有望下调30bp(两次下调15bp)的判断,我们认为今年市场表现可能会略强于2023年。但...