用“递弱代偿”理解互联网的28个现象和终局
2020年4月29日 - 人人都是..
古代采猎社会,人类个体有着豪华的30万平方公里活动空间,但是进入农耕文明,个人活动范围立即缩小到了数百平方,像稻草人一样被固定在土地上,日复一日种地为生,而不得四处奔跑。再看如今的公寓,则更是在区区数百平方上,让上百人挤在一起,不能大声喧哗。甚至在一些地方,有个区区阳台的,居然可以算是超级豪宅,还...
详情
100+数据科学面试问题和答案总结-基础知识和数据分析
2022年6月26日 - 腾讯新闻
中心极限定理:当我们从一个大总体中抽取随机样本,然后取这些样本的均值,它们形成一个正态分布。15、描述不同的正则化方法,如L1和L2正则化有3种重要的正则化方法如下-L2正则化-(Ridge回归)-在L2正则化中,我们将所有权重的平方和,乘以一个值lambda,加到损失函数。Ridge回归公式为-可以看到,如果某一特定数据...
详情
收藏| 190 道机器学习面试题|贝叶斯|范数|权值|算法_网易订阅
2021年1月19日 - 网易
(1)梯度消失:根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话,那么即使这个结果是0.99,在经过足够多层传播之后,误差对输入层的偏导会趋于0。可以采用ReLU激活函数有效的解决梯度消失的情况。(2)梯度膨胀:根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的...
详情
【机器学习基础】各种梯度下降优化算法回顾和总结
2022年4月19日 - 网易
公式看起来和上面标准GD一样,但是注意了,这里的样本是从批量中随机选取一个,而标准GD是所有的输入样本都进行计算。可以看到BGD和SGD是两个极端,SGD由于每次参数更新仅仅需要计算一个样本的梯度,训练速度很快,即使在样本量很大的情况下,可能只需要其中一部分样本就能迭代到最优解,由于每次迭代并不是都向着整体最优化...
详情