研究|吕指臣、卢延纯等:数据空间建设——理论逻辑、发展现状与...
可能产生的负面影响包括:数据质量控制不足,无法及时识别和纠正数据错误、缺失值或异常值,对制定和执行战略和规划产生误导;数据安全防护薄弱,缺乏先进的数据加密、访问控制和审计功能,造成涉及公民个人信息的数据暴露于外部风险;数据生命周期管理不当,导致数据冗余和存储成本增加;第三,数据治理的制度体系不健全。
通透!详解主数据历史数据的清洗方法和工具
缺省值(DefaultValue)是指在计算机编程和数据处理领域中,当用户没有提供其他值时,系统或程序会自动使用的预先定义的值。填补缺省值的方法是对直接忽略方法的改进,指针对影响不大的缺失数据统一填补一个确定的缺省值,以避免浪费大量数据。如,量化的属性可以采用一个极大的负值或正值作为缺省值,非量化的属性可以采用...
华泰金工 | GPT因子工厂2.0:基本面与高频因子挖掘
值得强调的是,部分因子的累计曲线中间部分为直线且后续存在缺失值,原因可能在于因子计算过程中出现极端值导致长期空值。从因子相关性上看,GPT因子工厂2.0产出的高频因子相关性同样普遍偏低。将周度IC与RankIC累计曲线异常的因子剔除,我们保留剩下的23个因子进行相关性检验:因子相关系数最大值为0.97,最小值为-0.86,相...
【行业研究】2024年上半年银行业信用观察
因部分银行的个别数据存在缺失值,样本企业指标分析存在一定的局限性。▌规模指标分析规模指标方面主要选取总资产规模、总资产中贷款规模占比以及贷款增速三个指标。具体来看,商业银行的总资产在同类型商业银行之间以及同信用等级不同类型银行之间有较为明显的分层,且AAA级农商行资产规模显著高于AAA级城商行。资产结构方...
【国海策略】如何交易美联储降息—美国降息系列专题1
风险提示:研究方法(历史回溯法)的局限性,中美摩擦加剧,地缘政治突发风险,海外流动性宽松不及预期,早期历史数据存在个别缺失值等。报告正文1995年以来美国共经历四轮降息,分别为由1995年、2001年、2007年和2019年开启的降息周期,四个时期经济“着陆”的方式各有不同,但可以进一步划分为三种类型的交易——宽松交易、...
数据资产管理:管、存、算、规、治
常见数据清洗包括对缺失值的处理和异常值的处理(www.e993.com)2024年12月20日。数据加工包括数据变换、数据结构转换、表间数据处理等。ETL(抽取Extract、转换Transform、加载Load)将上述数据清洗、数据加工的方法串联起来,形成完整的数据之“算”链路体系,是数据准备过程中最重要的一环。
数据要素x项目办公室:实现数据要素的前提?数据人才发挥实力
其次,对采集到的原始数据进行清洗、填充缺失值、处理异常值等操作,确保数据的质量和一致性,继而选择合适的数据库或存储系统来存储和管理开发好的数据要素。最后需要利用统计分析或数字技术对已经开发好的数据要素进行深入分析和挖掘以从中获取有价值的信息和知识。然后根据实际应用情况收集反馈意见,并根据反馈对已开发的...
债券融资对GDP影响的量化分析
(1)劳动者报酬缺失值填充劳动者报酬为一年内劳动者从事生产活动应获得的全部报酬,为累计数据。而企业财务报告中资产负债表的应付职工薪酬是指截至报告期末,企业根据有关规定应付但未付给职工的各种薪酬,为时点数据,与劳动者报酬这一累计数据存在口径差异。统计数据显示,截至2021年末,在有存续债券余额的5659家企业中,...
概述|临床试验的数据处理与统计分析
测量性偏倚是指医生或病人对试验方案的不依从造成的偏倚,如错误接纳、违反方案规定的伴随用药;使用的疗效评价方法或测定方法在各中心之间未经过严格验证;以实验室测定值为主要结果变量时,实验室测定没有进行室内质控;试验药物的用药(包括医生给药和病人自己服药)依从性差;不按规定时间访视病例,或病例中止、失访等。
【华泰金工林晓明团队】上周半数因子呈现正收益——因子跟踪周报...
1.选取Wind分类下的偏股混合型基金,剔除沪港深基金等非完全投资于A股市场的基金,剔除数据方面有缺失值或存在疑问的基金,剔除2017年以后成立的基金,共保留480只偏股混合型基金。2.以过去90个交易日基金的日频收益率作为因变量,30个中信一级行业指数日收益率作为自变量,样本按时间衰减赋权,通过不同的回归方式对各...