网友制作阿里数赛预赛统计图,显示疑似同一学校多人得分相同,这个分析靠谱吗?

知乎热榜6个月前发布 NIUC!
1,328 0 0

byoshovel的回答

1. 排名和同分的排序策略有关系。比如如果同分按照学校名字排序的话,同一个学校学生排名中存在这个gap是很理所应当的。

2. 第一张图不是聚类分析。聚类分析不是这样做的。

3. 在1-800里随机抽20个数画出来也一样有很多gap。

因为人总是会强行在数据中寻找模式,我觉得不经过统计检验,肉眼看这种gap意义不大。

如果要好好做统计检验的话,我想一个方法是对同一个学校所有学生排名排序,然后对名次求逐差。假设排名随机的话,这个大致相当于一个泊松过程的waiting time,也就是说这个逐差应该是指数分布的。比较实际逐差的分布和指数分布的区别可以得到一个p-value来初步检验原假设。

严格来说这个不是一个泊松过程,具体怎么来算逐差的期望分布还没想好,初步想的话应该和指数分布差得不多。

import matplotlib.pyplot as plt
import numpy as np

n, m = 800, 20
u = np.arange(1, n)
y = np.sort(np.random.choice(u, m))
x = np.arange(1, len(y) + 1)
dy = np.diff(y)
plt.scatter(x, y, s = 0.5)
网友制作阿里数赛预赛统计图,显示疑似同一学校多人得分相同,这个分析靠谱吗?

© 版权声明

相关文章

暂无评论

暂无评论...