计算扎根:定量研究的理论生产方法
这一方法虽然是典型的计算社会科学方法,但其逻辑起点和扎根理论的核心原则有异曲同工之妙:打破理论的先入为主,在不做任何理论假说前提的条件下扎根于数据本身,从而打破“演绎-验证”的逻辑,打通经验研究到理论研究的生成路径。因此,我们将其命名为“计算扎根”(computinggroundedtheory)。本文将首先对传统定量研究...
中科易研:数据清洗的定义以及数据清洗的方法
因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些...
让美议员喊出“要确保发生在美国”的Web3.0,到底是个啥?
雅虎创办人兼首席执行官杨致远从软件的角度描述了Web3.0,他认为“不一定得是计算机科学家才能创作出一个程序,这种现象在Web2.0里初现端倪,而Web3.0将更加深化,它是一个真正的公共载体……专业,半专业和消费者的界限越来越模糊,创造出一种商业和应用程序的网络效应。”美国视频网站奈飞创始人里德·哈斯廷斯(ReedHast...
...发布国家污染物排放标准《重型柴油车污染物排放限值及测量方法...
GA.2.3若某发动机系族属于一个已经通过型式检验的OBD发动机系族(见图GA.1),如果生产企业能向国务院生态环境主管部门证明满足附录G要求的监测系统在该OBD发动机系族和所有发动机是相似的,则不必对该发动机系族进行验证。GA.3报警系统激活验证GA.3.1G.6至G.9中提到的各类型故障(例如缺少反应...
跨部门协同治理的“第三条道路”何以可能——基于300个治水案例的...
本文把整体网络结构中具有相对较强、较直接、较紧密或经常联系的行动者关系子集合称为“凝聚子群”。在社会网络中,凝聚子群可通过基于网络可达性(网络距离)计算的“n—派系”(n-cliques)以及基于网络节点度数计算的k—核(k-core)进行量化分析。在无向网络中,一个派系的任何两个成员之间都存在关系或连接。“n—派...
研究方法|大规模问卷调查统计方法研究
因此,多水平关系量化对于测度不同题目间关系非常有帮助(www.e993.com)2024年11月28日。它能够刻画出不同水平下一个变量随另一个变量的变化情况,同时勾勒出大规模问卷调查背景下变量间关系的全貌。综上所述,本文主要讨论兼顾总体结构特征的样本量测算与分配方法、基于结构特征的问卷分割设计以及多水平关系量化方法三个方面的研究问题。
100+数据科学面试问题和答案总结 - 基础知识和数据分析
2、什么是选择偏差?选择性偏差溯源英文为SelectionBias,指的是在研究过程中因样本选择的非随机性而导致得到的结论存在偏差,也称选择性偏差为选择性效应(SelectionEffect)。它是由于采集样本的方法造成的统计分析的失真。如果没有考虑到选择偏差,那么研究的一些结论可能不准确。
中华医学会胃癌临床诊疗指南(2021版)
4.癌结节(tumordeposit):定义为在胃周淋巴结引流区域内,与胃周脂肪组织相邻,独立存在的肿瘤结节,其内没有可辨认的淋巴结、血管、神经结构,又称淋巴结外软组织转移。胃癌TNM分期建议每个癌结节都当作一个转移的淋巴结纳入N分期,但是此方法仅为经验性推荐,需要更多高等级循证医学证据的支持。
深度学习中,面对不可知攻击,如何才能做到防御“有的放矢”?
1、EagleEye:一种针对对抗性输入的攻击不可知的防御方法[1]本文提出了一个用于深度学习系统的攻击不可知的对抗性篡改分析引擎:EagleEye。EagleEye利用了许多攻击所依据的最小化原则,即,为了最大限度地提高攻击的规避性,对手通常会做到尽可能小的失真,以将真正的输入转化为对抗性的输入。本文的工作主要包括两部分:(...
【华泰金工林晓明团队】WGAN生成:从单资产到多资产——华泰人工...
其生成虚假序列的方法是:对多资产收益率序列在时间维度上进行有放回地随机抽样,重复252次,得到长度为252的收益率序列。在时间维度上进行采样,是指每次随机抽取一个交易日,并将该交易日所有资产的收益率进行抽取,如下图所示。因此,Bootstrap不会破坏不同资产收益率之间的截面相关关系(0阶相关关系),但可能破坏其它...