Posted on 2008/11/25 by 谢益辉
作者注:本文是为中国人民大学统计学院本科院刊所写的稿件。走过了四年本科,觉得应该对后来人讲一些负责任的话,以使大家能更高效地学习。我认为人生的奋斗,怕的不是没有动力,而是有动力却不知道方向。因此,我把我所了解的统计学的领域介绍给大家,让大家早日了解一下统计学的基本内容,早日找到自己的方向。当然,仅仅四年的学习,得出的观点或多或少会浅薄,所以也请各位大师多多指点批评。
如果学了几年统计,还连统计的那个经典定义都背不出就不应该了,在此我不再啰嗦一遍。统计学也不是什么神秘的学科,它的目的主要是通过数据探索信息,因此也就相应有一系列的流程:收集、整理、分析和表述(数据)。
按照这个流程,统计下属的众多学科的地位与作用也就一目了然。今日我取标题为“统计学的领域”,说实话这个题目有些狂妄。够资格写这种题目的人,恐怕至少应该在统计学界混过数十载。
不幸的是,本人一向提倡“人不猖狂枉少年”。如果没有足够的热情和斗志,是不可能取得一番成就的。正值青春年少,安能不立鸿鹄之志?此为题外话。
1、收集数据
一般来说,数据的来源无非是试验和调查。平时我们谈统计学似乎不太注重数据的收集问题,然而试验设计和调查技术(包括抽样等)都是很有用的学问。就我们这种纯粹的统计学院来说,试验设计的地位似乎不太高,而我所了解的生物统计、医学统计等领域对它的要求却特别高,有志于生物医学统计方向的同学一定要注意研究这门课,有些名词诸如正交设计、随机区组试验、拉丁方试验等都是你们将来会遇见的,方差分析一般则是试验设计之后最基本的统计分析方法;对于调查,一方面它是由统计学的理论作背景支撑的(大数定律、数理统计、抽样理论等),另一方面涉及到实务操作方面的技术,做过调查的同学应该都了解调查的“艰辛”,当然如果有统计学的指导,我们也会发现一些让人变聪明的技术,举个例子,对于吸毒问题,受众(调查客体)一般都会低报(不愿意告诉访员自己吸毒),对于这种情况我们该怎么处理?暂且把悬念留在这里;如果事先不知道答案,恐怕是很难想象这件事情与抛硬币有任何瓜葛的。
对于我们这个统计学院(素以经济统计强势著称),从收集数据角度来说,国民经济核算与经济社会统计也是两门比较重要的课程,搞经济统计不能不对于经济数据的来龙去脉了如指掌,要不然统计指标都是从何计算而来有何意义都搞不清楚,还从何谈起经济统计?
2、整理数据数据不是说收集上来就可以马上作分析,有实践经验的人都知道,在收集数据的过程中,总会有各种意想不到的情况发生,但也是天要下雨娘要嫁人没办法的事情,你总不能把那些在问卷上偷懒空着不填或者乱填一气的同志们抓来严刑拷打。在此我有必要提醒各位,一定要做好心理准备,无论你们在学校里老师教授给你们多完美的理论,到现实中往往会四处碰壁的。空着调查项目不填写的我们称之为缺失值(Missing Value),胡乱填写的可能成为离群点或野值(Outlier),对于这样的数据,我们应该事先做一些处理才能进行下一步的统计分析,不然会对统计结果产生一些不良影响,这些道理用脚趾头想想就能明白(都用不着用膝盖想)。当然数据的整理还包括很多其它内容,诸如重新编码(Recode)或者进行某种综合计算等等,这里不详谈,因为都是很陈旧的内容了。我想把我所知道的统计学中比较近代的技术介绍给大家,让大家对我们的前沿知识有所了解。关于缺失值的处理,目前已经发展起来比较完备的插补技术(Imputation),这里面包括均值插补、热平台插补、冷平台插补、最近邻插补、EM算法、Bootstrap、Jackknife、MCMC(Monte-Carlo Markov Chain)等知识。相信如果大家看看近代现代统计学的发展,这些名词一定不会陌生。对于数据中的离群点,也要先思考一下,不要轻易删除,一个穷山村中冒出一个大富翁的可能性不一定就是0,在离群点中反而有可能隐藏对我们有启发的信息(比如一位同学的学分绩太高以至于成了“野值”,我们就不能把他/她从班里“删除”,而应该借鉴学习经验)。
3、分析数据
不可否认,当今社会对于统计的需求,大部分都在于这一块。数理统计的纸老虎会让很多数学功底不好的同志望而却步,再加上统计中众多术语如P值、置信区间、卡方统计量等又会让很多人觉得费解(曾经有一次我给一位同志解释了好半天X与Y两个变量的相关系数对方死活就不明白,我疯了),如果再来一些稍微前沿一些的统计分析方法例如结构方程模型什么的,他们更是会云里雾里找不着北,然而来自统计分析的打击似乎是无穷尽的,他们最后发现统计软件也不太会用,要花很多钱购买,更可怕的还都是英文的……我琢磨着,他们一定心想,苍天呐,如果还有来生,我……一定要学统计……
作为统计人也不要太得意,首先统计分析方法你不一定会用,其次即使你会用也未必能用对地方。这个领域我几乎已经无法介绍,因为数百年的发展,让统计方法扩充得让人很难概括全面了。最简单的分类莫过于描述统计与推断统计了;描述统计大家应该都懂,数据是什么就是什么,在原始数据的基础上稍作加工,提炼一下信息,让人对一个数据集(样本)在心中有一个大致的了解,比如一国的GDP,国家统计局不可能每年都向人民群众公布张三家的鸡下蛋买了多少钱以及某红星工厂钢铁年产值多少钱,等等,而是公布一个总数,让大家对我国的国力有大致的了解;推断统计就需要用到一些比较精深的统计理论了,最重要的支撑莫过于数理统计,所以这门课大家也一定要学好,要知道相比起数学系的数学课,数理统计根本就没什么难度。推断统计中,根据是否需要参数假设又可以分为参数统计和非参数统计,后者出现的年代要晚,因此在理论和应用方面可能不如前者,二者的比较又足以写一大篇文章,此处作罢,但是无论如何,从参数统计到非参数统计,你的统计思维必将经历一个重大转变,如果学得够深入,你甚至可以由此联想人生得失问题;不是和大家开玩笑,有时候统计确实能为我们展现一种人生观。
相关名的词恐怕也不是一两页纸能列举完的:相关分析(包括典型相关分析)、回归分析(包括投影寻踪回归、分位数回归)、对应分析、信度分析、生存分析、聚类分析、判别分析、因子分析、路径分析和主成分分析等。如果你至今还只知道普通最小二乘法(OLS)而不知道偏最小二乘法(PLS)这样的名词,那只能说明你还在一个古董世界徘徊,需要加把劲了。
关于数据分析方法,当然首先要打好基础,掌握那些基本方法,若想在方法领域有所造诣,那么请回家把概率论与数理统计多翻几遍,然后开始啃国外的教材以及文章。我常常遇到这种情况,就是一种方法,我看国外最早的论文是二十世纪六七十年代的,而国内最早的论文则往往已经是二十一世纪了。可以看出,国内在方法上的研究与国外的差距有多大。聪明人会从这里发现一个“市场”,我就不诱导大家了,这对于国内统计学的长远发展不太有利。
还有一点,也是要提醒大家切记,统计分析方法往往都有理论假设或前提,在实际应用时,务必务必要注意!首先要检查数据是否满足我们的理论条件,不要拿来就作分析,即使统计软件会“不假思索”地给你输出漂亮的结果。(统计软件有时候挺害人的,不要完全相信它们)
4、表述数据
我认为世上不存在不懒的人,因此数据的表述一定也是一门学问。你要是把统计软件输出的P值活生生拿给别人看,八成会被殴;你要是胆敢告诉人家聚类分析碎石图上石头的位置表示特征根的大小,被扁的概率将一致趋近于1。
统计是用来说明问题的,不是用来吓唬人的。把我们的分析结果表述给人家看,就需要经过一定的“转化”。不要轻视数据的表述问题,有些统计方法之所以能“红”起来,就是因为人们为它的分析结果找到了巧妙的解释。
上面说的是统计学方面的表述,外观形式方面的问题同样应该注意。表格中的数据不使用右对齐(或小数点对齐)、图形画得花里胡哨或土里土气,都会让统计的功效受损,虽然只
是“面子问题”。学了那么长时间的统计,不应该不知道图的标题应该写在图下方而表的标题应该写在表上方,平时看文章多注意别人是怎样表达的。
好了,统计学本身就从流程上介绍到这里。稍微再谈谈我所见到的统计学发展趋势:一方面是学科结合的趋势,单单只会一门统计学恐已难以立足,统计学的发展动力,越来越多地来自于其它各个学科,若不是这些学科给统计学“出难题”,统计学的发展可能早已经停止了,医学会问你,怎样设计试验既能得出显著的统计结果又能节约成本?心理学会问你,人的情商是一个隐变量,应该怎样测量?金融学会问你,股票市场上时序数据的异方差怎样处理?市场营销学会问你,怎样从超市的海量数据中挖掘出有用的商品信息?法学会问你,某甲杀人的概率有多大?新闻传播学会问你,大众对某位候选者的真实支持率有多高?等等……;另一方面是计算机的广泛应用趋势,我也要特别强调,计算机在未来的统计中必将扮演越来越重要的角色,想要摇着笔杆子去追赶奔四3.2绝对是不可能了,计算机方面又尤其要数编程能力最重要,这番话是对那些想冲到统计时代前沿的同学们说的,统计方法的发展太快,以至于很多统计软件都跟不上,因此,若自己掌握计算机编程技术的话就能不必受到统计软件的制约。
我在中国人民大学统计学院已经学习了四年,感触颇多,牢骚也不少。生活方面不多说,大家最好早点学会自强自立,早已经过了18岁,有空听听郑智化的《水手》。
学习方面说这样几点吧:
首先,不要指望你的老师会教给你所有的知识,同时也要明白你所学的知识是很不全面的。大学与高中不一样,这里不是一个纯粹的教学的地方,更多地是思想碰撞交流的地方。如果
24 THOUGHTS ON “统计学的领域(写给在统计学院学习的学弟学妹之一)
”
A bout 谢益辉
Iowa State University 统计系在读博士生。统计之都网站创办者;研究兴趣为统
计图形及数据可视化,对统计模型方法的发展感兴趣但不喜欢纯粹抽象的数学
理论,以直观、实用为学习标准;偏好以R 语言为工具;Email :
xie@yihui.name ;个人主页:http://yihui.name
View all posts by 谢益辉 →
到现在你还在上课时埋头认真地把老师说的每一个字记下来,那么你可能还没理解什么叫大学。统计学纷繁芜杂的体系,不是老师在几节课上能讲出来的。老师可以告诉你,统计学都有什么内容,剩下的就是你自己多多努力奋斗。
其次,攻书莫畏难。可能这也是大学与高中的区别之一,高中某一道题不会做可能会影响你的考试成绩,而大学则不是用来为难人的地方。此路不通可以走彼路,你若不擅长积分,那么对于书中证明用到积分的地方大可不必仔细看,总之要有自己擅长的地方,然后注意培养自己的优势,以最快的速度向前发展。不过话说回来,不要被我误导,我不是说可以随意放弃一些课程,基础仍然是要打好的,在这个条件下,你可以选择自己擅长的方向发展。再次,不要忽视图书馆的丰富资源,不仅包括图书,而且还有大量电子资源,注意上网看看,学校都购买了大量的论文数据库,不用实在可惜了。里面的统计刊物可以趁早接触一些,对于论文写作以及知识面的拓展是很有好处的。
最后,不要惧怕高年级的学长们,他们都知道吃人是犯法的,因此大可放心去请教、取经,让自己少走一些弯路。只可惜,当年没有学长对我这样说,以至于我一直惧怕学长会吃了我……
还有,一定要用好英语。(我可没告诉你们要考好英语)
以及,不要没日没夜地上自习。(当然也别像我从不上自习)
对了,上网别总聊QQ ,以后发财了有的是时间聊,现在有空多来我们的“统计之都”网站看看:http://cos.name
一死生为虚诞,齐彭殇为妄作。各位加油。
谢益辉
2006-10-07
This entry was posted in 抽样调查, 生物与医学统计, 统计推断, 试验设计, 非参数统计and tagged 分析数据, 学习体会, 学习经历, 收集数据, 整理数据, 统计学, 表述数据 by 谢益辉. Bookmark the permalink [http://cos.name/2008/11/domain-of-statistics-by-yihui/] .
郑冰
on 2008/11/27 at 10:29 said:
每次看都有不一样的感受啊!
谢益辉
on 2008/11/27 at 10:55 said:
直到前两天一位南京财经大学统计系的学生给我写邮件我才觉得有人看懂了我的意图。sigh,本学院的学生在与别人交流专业知识上做得真是远不如一些外校学生,看来环境太好对学生的成长并不好……
魏太云
on 2008/11/27 at 14:25 said:
我也看过几遍,谢兄的这些看法已经先入为主了,讲得清楚简练,很有裨益。谢兄说的一条龙式的统计工作,每个环节都很重要。当然各个环节对于不同应用学科,难度大不一样。谢兄文章内容实在丰富,在此我仅就其中两点发表一下读后感。不对的地方还望指正。
说起收集数据,社会学的就更恐怖了,他们的田野调查一搞可能就是就是几年,甚至十几年。有个外国的社会学家为了研究罪犯心理,上街故意砸东西,迫使将其关入,然后融入其中,不动声色的观察,采集数据。北大好像有个教授效仿,但是没砸东西,而是联系局。而我们的数据似乎都是官方的,可信度有多大,谁都不知道。我很敬重的经济学家在做实证经济时就是亲身调查,不仅走遍大街小巷,仔细观察,而且经常自己亲自做买卖,获得到数据。他说当年也是研究官方或者别的学者的数据的,但是后来发现这样很容易被蒙蔽欺骗,所以就自己出马了。反观如今的实证经济学,竟然实在象牙塔里进行的!数据是统计分析的原材料,一旦原材料有问题,那么无论模型如何漂亮,算法如何先进,得到的都只能是垃圾——因为进来的就是垃圾,还能指望得到什么有价值的结果?
统计学本身无价值,必须要和其他学科交叉,这才是统计学本身的价值所在。但是事实并非如此——有时没有被合理地利用,而有时却被泛滥而又无耻地滥用。计量经济学,我觉得这门学科很难搞,因为因为经济本来就很复杂,有时定性分析都很困难,更何况定量了,当然如果有朝一日真能差不多精确地定量就好了。放眼望去,现在的计量经济学可谓统计学的天下,一个几乎不懂经济学原理而数学、统计功底扎实的学生可以把计量经济学搞的看起来很漂亮,但是有实际意义吗?
抛开了实际背景和理性分析,而单纯拿数据来操练,实在不妥。另外,鄙人认为经典的协整分析在数理统计中可能有点小用,但放在实际中,却完全是胡扯。温室里培育的花朵,哪里经得起大自然中的风吹日晒呢?而医学统计、生物统计、数据挖掘、机器学习却很好地体现了统计学的存在价值。
Styrax
on 2011/07/25 at 01:17 said:
反观如今的实证经济学,竟然实在象牙塔里进行的!
————–
国内的经费恐怕是个麻烦事……
郑冰
on 2008/11/27 at 17:34 said:
样本量太小,不能代表总体水平。
谢益辉
on 2008/11/28 at 14:14 said:
魏兄跟我一样成了统计愤青了,哈哈我个人对统计学在预测方面的模型抱有信心,对解释型的模型持相当大的怀疑态度,但相信结合了其它专业知识的解释型模型是有用的。统计应该和具体的实战学科结合才能做出有用的结果,而不能闭门造车,外面的世界未必那么“精彩”。
另:我这篇文章也是在温室里写出来的,大家小心不要上当受骗
魏太云
on 2008/11/28 at 16:09 said:
我对预测更没信心,认为解释是预测的基础,解释不了,谈何预测?最常用的线性回归分析我也十分质疑,至于时间序列中的ARIMA等模型,我觉得比简单的曲线拟合高明不了多少,当然拟合方法也有很多。不过它们都很有理论意义的,其存在的价值是毋庸置疑的。All models are wrong, but some are useful. 当然还得加一句just on some cases. 尤其是把理论往实际中套的时候。
另:我也有点纳闷,最近随便一发牢骚就上千字了,排在3号的评论我还删简了许多呢。胡适曰,多研究些问题,少谈些“主义”,主义是骨头,问题才是血肉,看来我需要反省一下了。
Pingback: 《本周导读》第一辑 | 统计之都
谢益辉
on 2008/12/01 at 14:43 said:
To 6号:我认为预测不一定需要解释,我之所以相信预测模型,是因为预测模型是可以经受检验的,比如,在没有新的样本的情况下,我们可以用训练样本和测试样本来获得模型预测性能的估计,这样我们对模型的可用性能有一定的了解,而不像解释型的模型,怎么解释都行,看你模型的变量怎么选、数据怎么来,只要最终结果P 值显著,那么就皆大欢喜;至于解释是否真的成立,谁都不知道,因为我们不知道什么是真实的解释,公说公有理,婆说婆有理。(相比之下,预测模型要是预测错了我们是可以知道的)
机器学习领域有些方法压根就没法解释,例如Bagging方法集成了多个预测模型来一起预测,你说这样的集成模型过程如何解释呢?里面的关系已经超出人类的想象了……
zht
on 2008/12/30 at 19:32 said:谢益辉—-感谢你为统计增益了无限光辉!!!我顶!
小学生
on 2009/03/06 at 14:05 said:
这篇文章感触很大,因为本人不是专业学统计的,对里面的很多知识还有待补充学习,但是大侠建议上网少料聊天,确实感触很深!
多多
on 2009/03/16 at 10:45 said:
我想请教各位,有谁知道因子分析的详细发展历史过程?感激不尽!
谢益辉
on 2009/03/16 at 11:59 said:
你可以参考“维基百科因子分析页面”。
haha999
on 2010/05/09 at 13:40 said:
偶然路过,看过,觉得很有意思。虽然本人不是学统计学的,但是现在对统计学有点兴趣了,特别赞同“统计是用来说明问题的,不是用来吓唬人的”,这样我联想到大学数学抽象理论的教学,嘿嘿,确实有点吓人!像谢同志学习,能把专业学习处理的这么生动有趣,还有关心同路人的情节情怀,感动哦!
doudou
on 2010/08/17 at 09:42 said:
引用”最后,不要惧怕高年级的学长们,他们都知道吃人是犯法的,因此大可放心去请教、取经,让自己少走一些弯路。只可惜,当年没有学长对我这样说,以至于我一直惧怕学长会吃了我……”
这条很有意思呢…
这个师兄多笑笑就不会有人怕拉~
susu
on 2010/11/22 at 23:17 said:
精辟又幽默~好文!
宫春燕
on 2011/10/19 at 17:12 said:
有没有哪位高手知道使用经验似然方法求均值的置信区间怎么用R语言实现?
whitephone
on 2012/02/26 at 12:46 said:
为什么不要没日没夜的自习,要学好,要干什么
谢益辉
on 2012/02/26 at 12:50 said:意思是不要为了考试分数而上自习,这东西毕业即失效,还有很多更重要的
问题要考虑。
suuny
on 2012/07/08 at 06:41 said:
请问博士,两个变量,均只能用阳性阴性表示,如何比较相关性?谢谢
goldersunlove
on 2012/08/13 at 17:55 said:
谢总,我是一个刚对统计学感兴趣的在职工作者,特别想要一本运用统计方面的书,如在什么情况下,用什么数据清理方法;在什么情况下运用什么样的统计分布;在什么情况下,运用什么样的统计检验,等等,具体如何计算这些值现有软件可以解决即可.
如何找到这样的书,如何从基础开始学习统计,您可否通过邮件赐教于我?谢谢
谢益辉
on 2012/08/17 at 11:20 said:
呃,我不是总。你这是从TMT沙龙奔过来的么?
看你的问题,可能吴老师的《从数据到结论》比较适合吧。
liutingyu
on 2012/11/03 at 21:07 said:
学长,我是统计学大三的学生,想考研,由统计学转精算,请问一下,统计学与保险(精算)学之间的差别与联系,感激不尽!
bxfly-quan
on 2013/04/01 at 23:34 said:相见恨晚下载本文