【统计学&Python】数据异常如何检验?14种检验方法!
2024年2月29日 - 网易
若有异常值,则其必为数据集中的最大值或最小值。原假设与备择假设如下:H0:数据集中没有异常值H1:数据集中有一个异常值使用Grubbs测试需要总体是正态分布的。算法流程:1.样本从小到大排序2.求样本的mean和dev3.计算min/max与mean的差距,更大的那个为可疑值4.求可疑值的z-score(standardsco...
详情
100 个 Numpy 实用小栗子|向量|随机数|numpy_网易订阅
2023年11月2日 - 网易
13.创建一个10x10的随机数组并找到它的最大值和最小值(★☆☆)(提示:min,max)Z=np.random.random((10,10))Zmin,Zmax=Z.min(),Z.max()print(Zmin,Zmax)14.创建一个长度为30的随机向量并找到它的平均值(★☆☆)(提示:mean)Z=np.random.random(30)m=Z....
详情
Python数据分析之scikit-learn与数据预处理
2019年12月17日 - 网易
大多数场景下,归一化都是将数据缩放到[0,1]区间范围内,计算公式如下:x′=xminmaxmin式中,min和max是x所属特征集合的最小值和最大值。可见,这种归一化方式的最终结果只受极值的影响。(1)sklearn.preprocessing.minmax_scale方法实现归一化。X_train=np.array([[1.,-1.,2.],[2.,0.,0...
详情
Python中的时间序列数据操作总结
2023年1月4日 - 网易
我们可以进行上采样(到更高的频率)或下采样(到更低的频率)。因为我们正在改变频率,所以我们需要使用一个聚合函数(比如均值、最大值等)。resample方法的参数:rule:数据重新采样的频率。这可以使用字符串别名(例如,'M'表示月,'H'表示小时)或pandas偏移量对象来指定。#downsamplemonthly_data=df.resample(...
详情