这里假设论坛首页是按照最新回复排序的。首先可以判断,因为回复数多的主题有更多机会被顶到首页,所以N要比M大。

我们不知道所有主题回复数的分布,假设为指数分布,所有主题平均回复数的期望为m,则回复数的概率密度函数为:

f(x)=e^(-x/m)/m, x>=0

再假设首页回复数的分布与所有主题回复数的分布正相关,也与回复数正相关,拍脑袋得到首页回复数的概率密度函数为:

f(x)=x*e^(-x/m)/m^2, x>=0

可以计算出首页平均回复数的期望为2m(这是我大学学过高数十几年来第一次实际用到算积分你敢信么),也就是说N=2M。

写了一小段代码来模拟,回复数是指数分布的,而所有主题和回复的时间顺序全部随机打乱,发现确实N=2M,而且与首页主题数目关系不大。

下面我找了两个中文论坛,S站和V站,来看看实际情况如何。论坛首页的数据我用Wayback Machine找了去年的一些网页快照,平均回复数我就用论坛往后翻几百页之后的去年的一些主题作为样本。

分析实际数据后发现,回复数的分布与上面公式所表示的分布大相径庭,是比指数分布长尾的多的分布。S站的数据为N=225,M=45。差别这么大是因为S站有很多数千回复的高楼不断出现在首页,这会导致N比M大的多。而V站的数据为N=23,M=19。差别这么小是因为V站首页并不是按最新回复排序,老的主题有新回复也上不了首页,新主题权重高。而主题的时效性越强,回复时间越集中,新回复对排序的打乱效果就越小,N就越趋近于M,极限情况回复不影响排序,则N=M。

综上,对于标题的疑问,很遗憾我智商不够了,只能回到本文开头的判断,预计M大于N,没办法得到其他结论。