这些年背过的面试题——实战算法篇
解决办法是将20亿个数的大文件利用哈希函数分成16个小文件,根据哈希函数可以把20亿条数据均匀分布到16个文件上,同一种数不可能被哈希函数分到不同的小文件上,假设哈希函数够好。然后对每一个小文件用哈希函数来统计其中每种数出现的次数,这样我们就得到16个文件中出现次数最多的数,接着从16个数中选出次数最大的...
100+数据科学面试问题和答案总结 - 基础知识和数据分析
选择性偏差溯源英文为SelectionBias,指的是在研究过程中因样本选择的非随机性而导致得到的结论存在偏差,也称选择性偏差为选择性效应(SelectionEffect)。它是由于采集样本的方法造成的统计分析的失真。如果没有考虑到选择偏差,那么研究的一些结论可能不准确。选择性偏差是指这样一种认知倾向:人们喜欢把事物分为典型的...
200 道经典机器学习面试题总结|权值|算法|范数|贝叶斯_手机网易网
@AntZ:XGBoost使用了一阶和二阶偏导,二阶导数有利于梯度下降的更快更准.使用泰勒展开取得二阶倒数形式,可以在不选定损失函数具体形式的情况下用于算法优化分析.本质上也就把损失函数的选取和模型算法优化/参数选择分开了.这种去耦合增加了XGBoost的适用性。12.XGBoost如何寻找最优特征?是又放回还是无放回的...
收藏| 总结经典的机器学习面试题
@AntZ:XGBoost使用了一阶和二阶偏导,二阶导数有利于梯度下降的更快更准.使用泰勒展开取得二阶倒数形式,可以在不选定损失函数具体形式的情况下用于算法优化分析.本质上也就把损失函数的选取和模型算法优化/参数选择分开了.这种去耦合增加了XGBoost的适用性。12.XGBoost如何寻找最优特征?是又放回还是无放回的...
收藏| 190 道机器学习面试题
L2范数:为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或Frobenius范数;Lp范数:为x向量各个元素绝对值p次方和的1/p次方。在支持向量机学习过程中,L1范数实际是一种对于成本函数求解最优的过程,因此,L1范数正则化通过向成本函数中添加L1范数,使得学习得到的结果满足稀疏化,从而方便人类提取特征。