网友制作阿里数赛预赛统计图，显示疑似同一学校多人得分相同，这个分析靠谱吗？

byoshovel的回答

1. 排名和同分的排序策略有关系。比如如果同分按照学校名字排序的话，同一个学校学生排名中存在这个gap是很理所应当的。

2. 第一张图不是聚类分析。聚类分析不是这样做的。

3. 在1-800里随机抽20个数画出来也一样有很多gap。

因为人总是会强行在数据中寻找模式，我觉得不经过统计检验，肉眼看这种gap意义不大。

如果要好好做统计检验的话，我想一个方法是对同一个学校所有学生排名排序，然后对名次求逐差。假设排名随机的话，这个大致相当于一个泊松过程的waiting time，也就是说这个逐差应该是指数分布的。比较实际逐差的分布和指数分布的区别可以得到一个p-value来初步检验原假设。

严格来说这个不是一个泊松过程，具体怎么来算逐差的期望分布还没想好，初步想的话应该和指数分布差得不多。

import matplotlib.pyplot as plt
import numpy as np

n, m = 800, 20
u = np.arange(1, n)
y = np.sort(np.random.choice(u, m))
x = np.arange(1, len(y) + 1)
dy = np.diff(y)
plt.scatter(x, y, s = 0.5)

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

网友制作阿里数赛预赛统计图，显示疑似同一学校多人得分相同，这个分析靠谱吗？

老公为了上班近十分钟要我搬家，双方争吵了很多次了，想听听大家的看法?

当为一件事犹豫不决的时候怎么办？

相关文章

暂无评论

热门网址

随机文章