欢迎来到中国质量人的精神家园,浏览中国质量俱乐部官方网站
加入我们

全国统一服务热线

021-5296-1817

会员申请

[lrm_form default_tab="register" logged_in_message="You are currently logged in!"]
新闻资讯
当前位置:首页 » 新闻 » 学生 t 分布的“学生”是谁?

学生 t 分布的“学生”是谁?

发布时间:2020-08-01 作者:通讯员

学生分布也是 t 分布

t分布(t-distribution)是一个重要的统计分布,经常用于估计呈正态分布、方差未知总体的均值。它也是对两个样本均值差进行显著性检验的t检定的基础。

t分布又名Student’s t –distribution,在一些中文译著中也被翻译为“学生分布”

而为什么要以“学生”来命名一个统计分布呢?这并不是说t分布是专门用来给学生考试的,或是由一群学生做“挑战杯”时发明的,Student是一个神秘人物的笔名,而这个神秘人物真实名叫威廉•西利•戈塞特(William Sealy Gosset)。

神秘人物威廉•西利•戈塞特

戈塞特是一位酿酒企业的员工,他所受雇的爱尔兰都柏林的吉尼斯酿造公司(Guinness Brewing Company)是一个声誉卓著的老牌酿造公司。20世纪初,少东家吉尼斯刚刚继承这家企业,他就决定雇用牛津和剑桥大学化学领域的优秀毕业生,以便将现代科学技术引进到公司的业务中来。1899年,在牛津大学获得化学和数学两个学位的新秀毕业生戈塞特因他的化学专长而被吉尼斯雇用。

雇佣戈塞特绝对是吉尼斯公司的一笔很好的投资,他不仅是一名出色的管理者并最终成为整个大伦敦地区业务的主管,而且他也以数学家的身份对酿造工艺做出过重要贡献:

戈塞特在1904年发表了第一篇文章,处理的是这样一个问题:麦芽浆准备发酵的时候,需要仔细地测量所用酵母的量,酵母是一种生物,人们在将酵母加入麦芽浆前,要在装有液体的罐子里培养和繁殖酵母。工人需要测量罐子里的酵母含量,以便决定使用多少液体,这一测量的准确度很重要,因为麦芽浆的酵母放少了会导致发酵不充分,而放多了又会导致啤酒发苦。 在这项研究中,测量的是样品中酵母细胞的量,但所研究的真正“对象”是整个瓶中酵母细胞的浓度。由于酵母是活的,细胞不断地分裂和繁殖,那个“对象”实际上并不存在。在某种意义上说,真正存在的是单位容积内酵母细胞的概率分布。

戈塞特对数据进行了研究,认为酵母细胞的数量可以用已知的泊松分布(Poisson distribution)来描述。 泊松分布是一种只包含一个(而不是四个)参数的特殊分布,它并不属于皮尔逊偏斜分布之一。确定了样品中的活酵母细胞数服从泊松分布,戈塞特设计出一些测量酵母细胞浓度的规则和方法,大大提高了测量的精确性。

用戈塞特的方法,吉尼斯公司能够生产质量更稳定的啤酒。 戈塞特想找一份适合的期刊发表这项结果,因为泊松分布(或相应的公式)在当时已经被发现100多年了,而人们仍一直试图在现实生活中寻找它的实例。戈塞特的酵母细胞计量可以提供一个实例,而且这也是统计分布新观念的一个重要应用。

然而,由于几年前吉尼斯公司的一位酿造师在发表文章时泄露了某个酿造过程的秘密原料。吉尼斯设立政策,禁止其雇员发表文章。 而戈塞特的朋友,也是《生物统计》编辑之一,卡尔•皮尔逊(Karl Pearson)在了解到戈塞特酵母研究的结果时,急切要求将之付印于他的期刊。他们决定用一个笔名发表这篇文章。

于是,1904年戈塞特以笔名“学生”发表了他的第一项研究成果。在其后的30年中,这位“学生”写了一系列极为重要的论文,几乎都发表在《生物统计》上,并以“学生”署名,其中就包括发展出t分布的重要论文——《平均数的概然误差》(The Probable Error of the Mean)。在这篇发表于1908年的论文中,戈塞特研究的特定问题是小样本(small sample)问题。在此之前,皮尔逊通过对一个分布进行数千次测量来计算该分布的四个参数,由于他使用了大样本,因此他认为自己得到的参数估计值是正确的。

而根据戈塞特的经验,科学家很少能有如此巨大的样本,通常的实验只能获得10到20个观测数据。他还了解到,这种情况在所有科学领域都很普遍。

在一封给皮尔逊的信中,戈塞特写道:“如果我是你遇到的用小样本工作的唯一一人,那就太奇怪了,在这个问题上我与斯特拉顿(Stratton,剑桥大学的一位研究员)交流过,他的一项研究仅仅只有4个样本!” 皮尔逊的研究认为:如果样本足够大,就可以精确地就算出参数。而戈塞特设问:如果使用小样本会怎么样?我们将如何处理这些注定在计算结果中会出现的随机误差呢?

戈塞特每晚坐在餐桌前,取出一小组数据,算出平均值和标准差估计值,再将二者相除,并将结果绘在图纸上。他将计算的这个比率的四个参数与皮尔逊偏斜分布中的一个进行对比,发现了一个重要结果:我们不必知道原始分布的四个参数的确切值。前两个参数估计值的比率即可以制成概率分布的表格,不管数据的来源,或者标准差的绝对数是多少,这两个参数估计值的比值就拥有一个已知的分布。

这一发现的重要性在于:没有“学生”的t检验,研究者将不得不估计观测数据的四个参数,再估计这四个参数估计值的四个参数,接着估计四个新估计值的四个参数……这样继续下去,统计分析注定要使用无限次的回归,没有机会得到最终的结果。戈塞特表明,研究者只需进行第一步估计就足够了。 在这个研究中,戈塞特采用了现代计算机基础上才出现的蒙特卡罗方法(Monte Carlo techniques),这是对一个数学模型进行多次模拟,以确定其概率分布的方法。然而,当时他没有计算机,只能不辞辛苦地加总数据,对上百个样本求平均数,并绘制频率分布的图表——所有这些都靠手工完成。

 后来,戈塞特的 “学生”t检验的频率分布公式被费歇尔(R. A. Fisher)证明。随着“学生”这一成果的后续发展,它提供了一个几乎人人都在使用的统计工具。 某些证据表明,吉尼斯家族后来发现了戈塞特一直秘密撰写并发表科学论文,这违反了公司规定。但“学生”的数学活动大多是在家里进行,并且是在正常的工作时间之外。戈塞特在公司不断被提拔,这也表明他的副业并没有使吉尼斯公司的利益受损。

后续与回忆

也有这样一种未能证实的说法:吉尼斯家族第一次知道这件事是在1937年,戈塞特突然死于心脏病,他的数学界朋友们与吉尼斯公司探讨,希望出资将其论文集结出版。

不管这个传言是真是假,美国统计学家霍特林(Harold Hotelling)在回忆录里提到,他在20世纪30年代后期与“学生”会谈是秘密安排的,整个过程就像间谍小说里的桥段一样。

这表明当时“学生”身份对吉尼斯公司来说仍是一个秘密。 尽管戈塞特取得了很高的成就,但他为人却十分谦逊。在他的信件中,人们经常可以发现这样的表述,如“我的研究只是提供了粗浅的想法”;或者澄清某项发现并不是他一人的功劳时,他会写道:“所有的数据基础实际上都是费歇尔完成的……”在人们的记忆中,戈塞特还是一个和善的、体贴的、在意他人感受的同事。

文章转载自统计课是纸老虎,本文仅作学术分享之用,文章版权归原作者所有。