byoshovel的回答
1. 排名和同分的排序策略有关系。比如如果同分按照学校名字排序的话,同一个学校学生排名中存在这个gap是很理所应当的。
2. 第一张图不是聚类分析。聚类分析不是这样做的。
3. 在1-800里随机抽20个数画出来也一样有很多gap。
因为人总是会强行在数据中寻找模式,我觉得不经过统计检验,肉眼看这种gap意义不大。
如果要好好做统计检验的话,我想一个方法是对同一个学校所有学生排名排序,然后对名次求逐差。假设排名随机的话,这个大致相当于一个泊松过程的waiting time,也就是说这个逐差应该是指数分布的。比较实际逐差的分布和指数分布的区别可以得到一个p-value来初步检验原假设。
严格来说这个不是一个泊松过程,具体怎么来算逐差的期望分布还没想好,初步想的话应该和指数分布差得不多。
import matplotlib.pyplot as plt
import numpy as np
n, m = 800, 20
u = np.arange(1, n)
y = np.sort(np.random.choice(u, m))
x = np.arange(1, len(y) + 1)
dy = np.diff(y)
plt.scatter(x, y, s = 0.5)
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...