【问题】统计调查的一般过程是什么?统计调查对我们有什么帮助?统计调查一般包括收集数据、整理数据、描述数据和分析数据等过程;可以帮助我们更好地了解周围世界,对未知的事物作出合理的推断和预测.
一、数据处理的一般程序
二、回顾与思考
Ⅰ、数据的收集
1、收集数据的方法(在收集数据时,为了方便统计,可以用字母表示调查的各种类型。)
①问卷调查法:为了获得某个总体的信息,找出与该信息有关的因素,而编制的一些带有问题的问卷调查。 ②媒体调查法:如利用报纸、电话、电视、网络等媒体进行调查。
③调查法:如投票选举。
④实地调查法:如现场进行观察、收集和统计数据。
例1、调查下列问题,选择哪种方法比较恰当。
①班里谁最适合当班长( ) ②正在播出的某电视节目收视率( )
③本班同学早上的起床时间( ) ④黄河某段水域的水污染情况( )
2、收集数据的一般步骤:
①明确调查的问题;——谁当班长最合适
②确定调查对象;——全班同学
③选择调查方法;——采用民主推荐的调查方法
④展开调查;——每位同学将自己心目中认为最合适的写在纸上,投入推荐箱
⑤统计整理调查结果;——由一位同学唱票,另一位同学记票(划正字),第三位同学在旁边监督。 ⑥分析数据的记录结果,作出合理的判断和决策;
3、收集数据的调查方式
(1)全面调查
定义:考察全体对象的调查叫做全面调查。
全面调查的常见方法:①问卷调查法;②访问调查法;③电话调查法;
特点:收集到的数据全面、准确,但花费多、耗时长、而且某些具有破坏性的调查不宜用全面调查;
(2)抽样调查
定义:只抽取一部分对象进行调查,然后根据调查数据来推断全体对象的情况,这种方法是抽样调查。 总体:要考察的全体对象叫做总体;
个体:组成总体的每一个考察对象叫做个体;
样本:从总体中抽取的那一部分个体叫做样本。
样本容量:样本中个体的数目叫做样本容量(样本容量没有单位);
特点:省时省钱,调查对象涉及面广,容易受客观条件的,结果往往不如全面调查准确,且样本选取不当,会增大估计总体的误差。
性质:具有代表性与广泛性,即样本的选取要恰当,样本容量越大,越能较好地反映总体的情况。(代表性:总体是由有明显差异的几个部分组成时,每一个部分都应该按照一定的比例抽取到)
(3)实际调查中常常采用抽样调查的方法获取数据,抽样调查的要求是什么?
①总体中每个个体都有相等的机会被抽到;②样本容量要适当.
例2、„1‟判断下面的调查属于哪一种方式的调查。
①为了了解七年级(22班)学生的视力情况( 全面调查 )
②我国第六次人口普查( 全面调查 )
③为了了解全国农民的收支情况( 抽样调查 )
④灯泡厂为了掌握一批灯泡的使用寿命情况( 抽样调查 )
„2‟下面的调查适合用全面调查方式的是 .
①调查七年级十班学生的视力情况;②调查全国农民的年收入状况;
③调查一批刚出厂的灯泡的寿命;④调查各省市感染禽流感的病例。
„3‟为了了解某七年级2000名学生的身高,从中抽取500名学生进行测量,对这个问题,下面的说法正确
的是„ ‟
A 、2000名学生是总体 B、每个学生是个体 C、抽取的500名学生是样本 D、样本容量是500 „4‟请指出下列哪些抽查的样本缺少代表性:
①在大学生中调查我国青年的上网情况;
②从具有不同文化层次的市民中,调查市民的法治意识;
③抽查电信部门的家属,了解市民对电信服务的满意程度。
Ⅱ、数据的整理 1、表格整理 2、划记法
Ⅲ、数据的描述
1、统计表
定义:将要统计的数据填入相应的表格内,利用表格统计法可以很好地整理数据;
优点:统计表中的数据比较准确、详实,可以清楚地反映各个量之间的真实情况;
缺点:统计表得到的信息需要进行分析,表达不够直观;
2、统计图
(1)条形统计图
定义:用一个单位长度在坐标系中表示一定的数量,根据数量的多少画出长短不同的直线;
图形:
特点:条形图能够显示出各个项目的具体数目、易于比较组间数据之间的差别;
优点:能够清楚地表示出各个项目的具体数目(表示数据清);
缺点:不能准确地描述各部分量之间的关系;
(2)扇形统计图
定义:用来表示各部分量与总数之间的关系。
图形:
娱乐
特点:扇形图能够用扇形的面积表示出各部分在总体中所占的百分比、易于显示每组数据相对于总数的大小; 优点:能够清楚地表示出各部分在总体中所占的百分比(表明百分比);
缺点:不能从统计图中看出每个项目的具体数量;
步骤:①计算百分数;②计算圆心角;③画出圆和扇形并标明百分数;(用整个圆表示总体,每个扇形代表总体的一部分,用各个扇形的大小表示各部分数据,圆心角0=360⨯百分比)
(3)折线统计图
图形:
特点:折线图更易于显示数据的变化趋势
优点:能够清楚地反映事物的变化情况(反映变化清);
缺点:不能表示各部分在总体中所占的比值;
(4)直方图
图形:
特点:能够显示各组频数分布的情况、易于显示各组之间频数的差别;
绘制频数分布直方图的步骤:
①计算最大值与最小值的差;——变化范围
②决定组距与组数;——组内数据的取值范围
③列频数分布表;——将一组数据分组后落在各个小组内数据的个数叫做小组的频数
④画频数分布直方图;
注意:组距与组数的确定没有固定的标准,要凭借经验和研究的具体问题来确定。通常数据越多,分成的组数也越多,当数据在100个以内时,根据数据的多少通常分成512 个组。小长方形的面积=组距⨯频数组距=频数
频数/
) 30
1020400 娱乐 动画
数据的分析——备课人:李发
本章是属于“统计与概率”领域的内容,是我们在七年级下册学习了“数据的收集、整理与描述”之后,对数据统计的进一步的认识,为初三学习概率做好铺垫.
在前面的学习中,我们学习了收集、整理和描述数据的常用方法,将收集到的数据进行分组、列表、绘图等处理工作后,数据分布的一些面貌和特征可以通过统计图表等反映出来. 为了进一步了解数据分布的特征和规律,还需计算出一些代表数据一般水平或分布状况的特征量.
对于统计数据的分布的特征,可以从两个方面来分析:
一是分析数据分布的集中趋势,反映数据向其中心值(平均数)靠拢或聚集的程度;
二是分析数据分布的离散程度,反映数据远离其中.
这两个方面分别反映了数据分布特征的不同侧面. 本章主要从前两个方面来研究数据的分布特征,集中学习分析数据的集中趋势和离散程度的常用方法.
一、知识结构框架
本章知识的结构框图:
本章知识的展开顺序:
二、本章具体内容
1、数据的代表
平均数、中位数和众数这三个量的相同之处主要表现在:都是用来描述数据集中趋势的统计量;都可用来作为一组数据的代表,且都可用来反映数据的一般水平.
平均数的大小与每一个数据都有关,任何一个数的波动都会引起平均数的波动,当一组数据中有个别数据较大或较小,用平均数来描述整体趋势则不合适,用中位数或众数则较合适. 中位数与数据排列有关,个别数据的波动对中位数没影响;当一组数据中不少数据多次重复出现时,可用众数来描述
.
方差 波动情况 集中趋势
用样本平均数估计总体平均数 用样本方差估计总体方差 数 字 特 征
课题学习 实际应用
⑴平均数:一般地,如果n 个数123, , , n x x x x ……, 有1231(+ n x x x x
=+++……,那么叫做这n 个数的算术平均数.
加权平均数:如果在n 个数中, 1x 出现次1f 次, 2x 出现次2f 次, ……,k x 出现次k f 次, (这里12+=k f f f n ++……)
那么根据平均数的定义,这n 个数的平均数可以表示为11221(+ k k x f x f x f n
=++……这样求得的平均数叫做加权平均数,其中12k f f f 、、……叫做权.
例1:某校举行歌咏比赛,10位评委对某位选手的打分为80,85,77,82,78,95,83,79,75,82,去掉一个最高分和一个最低分后的平均分是 分.
【分析】这是一道关于算术平均数的计算,去掉一个最高分95,去掉一个最低分75,剩下的分数加起来再除以8,可以得到最终答案:80.75.
例2:某生期中考试中,语、数、英三科的平均分为78分,物理、政治两科的平均分为80,则该生这5门学科的平均分为 .
【分析】由部分的平均分求整体的平均分,可列式2
3280378+⨯+⨯得到5科平均分:78.8. 例3:某中学规定学期总评成绩评定标准为:平时30%,期中30%,期末40%,小明平时成绩为95分,期中成绩为85分,期末成绩为95分,则小明的学期总评成绩为 .
【分析】本题考查加权平均数“权”的第一种类型:百分数,可列式9530%8530%9540%9230%30%40%
⨯+⨯+⨯=++. 例4:某生在英语技能水平测试中,听、说、读、写四方面的成绩分别为85、83、88、80,请你按听:说:读:写=3:3:2:2的比例算出他的成绩.
【分析】本题考查加权平均数“权”的第二种类型:比例,即:842
233280288383385=+++⨯+⨯+⨯+⨯为所求.
例5:某区参加希望杯数学邀请赛,成绩如图所示:则竞赛成绩的平均数为
【分析】这是一道用直方图展现出来的考查加权平均数“权”的第三种类型:数字(人数、次数……)的题目,把每一个分组的头尾两数的平均数作为组中值,则每一分组的组中值分别为55、65、75、85、95,可算出平均分为74
5253525105952585357525651055=++++⨯+⨯+⨯+⨯+⨯.
⑵中位数:将一组数据按照由小到大(或由大到小)的顺序排列,如果数据的个数是奇数,则处于中间位置的 数就是这组数据的中位数; 如果数据的个数是偶数, 则中间两个数据的平均数就是这组数据的中位数.——唯一 且带有单位. 中位数作为一组数据的代表,可靠性比较差,因为它只利用了部分数据.但当一组数据的个别数据偏大或 偏小时,用中位数来描述该组数据的集中趋势就比较合适. 中位数与数据的排列位置有关,而某些数据的变动对它没有影响;它是一组数据中间位置上的代表值, 不易受数据极端值的影响. 中位数像一条分界线,将数据分成前半部分和后半部分,因此用来代表一组数据的“中等水平”.中位数 是一个不完全“虚拟”的数.当一组数据有奇数个时,它就是该组数据排序后最中间的那个数据,是这组数据 中真实存在的一个数据;但在数据个数为偶数的情况下,中位数是最中间两个数据的平均数,它不一定与这 组数据中的某个数据相等,此时的中位数就是一个虚拟的数. 中位数意义:若一组数据中的中位数是 a ,则说明大于或小于 a 的数各占一半. ⑶众数:在一组数据中,出现次数最多的数(有时不止一个,叫做这组数据的众数. 众数作为一组数据的代表,可靠性也比较差,因为它也只利用了部分数据。在一组数据中,如果个别数 据有很大的变动,且某个数据出现的次数最多,此时用该数据(即众数)表示这组数据的“集中趋势”就比 较适合. 众数与数据出现的次数有关,着眼于对各数据出现的频率的考察,其大小只与这组数据中的部分数据有 关,众数是一组数据中出现次数最多的数据,而不是该数据出现的次数,一组数据中的众数不唯一,可以有 多个,也可以没有众数,但不能说众数是零.——带单位 众数不受极端值的影响,其缺点是具有不惟一性,反映了出现次数最多的数据,用来代表一组数据的“多 数水平”.是一组数据中的原数据 ,它是真实存在. 例 6:已知一组数据的中位数为 80 ,可知这组数据中大于或小于这个中位数的数据各占 是中间两个数的平均值。小于和大于它们中位数的数据各占一半,中位数只有唯一一个. 例 7:周三下午体锻课有六个学生进行投篮比赛,投进的个数分别为 2,3,3,5,7,10,13,•则这七个数的 中位数是 ,众数是 . 【分析】找出中位数的前提是这组数据已经排好了顺序,这组数据的个数是 7 个,那么中位数就是处于第 4 个 位置的数:5.而这组数据出现次数最多的数是 3,所以众数是 3. 例 8:下图是某市排球队队员年龄结构直方图,根据图中信息解答下列问题: (1)该队队员年龄的平均数; (2) 该队队员年龄的众数和中位数. ,中位数有 个。 【分析】中位数是一个位置代表值,可以笼统理解为处于中间位置的数据,这个数据可以是现成的数,也可以 【分析】平均数为 17 1 18 2 21 3 23 2 24 2 21 . 21 岁的人数最多,故众数为 21. 1 2 3 2 2 21 21 21 . 2 由于共有 10 个数据,第 5、第 6 个数据的平均值为中位数,即
2、数据的波动(表示一组数据的离散程度) ⑴极差:是指一组数据中最大数据与最小数据的差叫做这组数据的极差.【极差 = 数据中的最大值—数据中的 最小值.】——极差反映的是一组数据的稳定性即波动大小 ①极差是刻画数据离散程度(波动情况)的最简单的统计量,能够反映数据的变化范围.(由于极差仅是 由两个数据来评判一组数据的,但不能反映出中间数据的分散状况,故不科学) ②为了体现一组数据的离散程度, 我们常用这组数据中最大值与最小值的差来反映这组数据的变化范围, 这样的差叫做极差。一组数据,极差大,离散程度就大;极差小,离散程度就小;所以离散程度的大小与极 差的大小是成正比的。 ③我们通常用数据的离散程度来描述一组数据的波动范围和偏离平均数的差异程度.数据的离散程度越 大,表示数据分布的范围越广,越不稳定,平均数的代表 性也就越小;数据的离散程度越小,表示数据分 布的范围越集中,变动范围越小,平均数的代表性就越大. ⑵方差: 在一组数据 x1 , x2, , x3 ,, xn 中, 各数据与他们的平均数 x 的差的平方的平均数, 叫做这组数据的方差, 2 常用 S 来表示,即: S 2 1 [( x1 x 2 ( x2 x 2 ( xn x 2 ]; n 2 方差是各个数据与平均数之差的平方的平均数,记作 s .【用“先平均,再求差,然后平方,最后再平 均”得到的结果表示一组数据偏离平均值的情况,这个结果叫方差】 方差是一个非负数,其单位是原始数据单位的平方,但通常省略.用来描述一组数据在它的平均数附近的 波动情况(稳定性) ,方差越大,说明这组数据的波动就大,方差越小,波动就越小. 方差的作用:用于表述一组数据波动的大小,方差越小,该数据波动越小,越稳定或整. 方差的三种公式: 1 [( x1 x 2 ( x2 x 2 ( xn x 2 ]; n 1 2 2 2 2 2 ②化简公式: S [( x1 x2 xn nx ] n 1 2 2 2 2 2 ③化简公式的变形公式: S ( x1 x2 xn x n ⑶ 标准差:方差的算术平方根,记作 S . ①基本公式: S 2 方差与标准差的关系:① s 2 ;② 与 s 2 的作用相同、单位不同。 1 x1 x 2 x2 x 2 xn x 2 ; n ①方差的算数平方根 叫做这组数据的标准差,即: ②标准差用于描述一组数据波动的大小; ③标准差的单位与原数据的单位相同; 例 9:下图是一组数据的折线统计图,这组数据的极差是 . 【分析】一组数据中最大数据与最小数据之差叫极差,由图可知, 这组数据中最大数据 59 与最小数据 28 之差为 31,故极差为 31. 例 10: (1)数据 -1,0 ,1,2,3 的方差是 . (2)数据 5,5,5,5,5 的方差是 2 2 2 . ( x1 x ( x 2 x ( x n x n 将数据代入公式可得: (1)2; (2) 0 .可以让学生思考一下方差为 0 的实际意义 例 11:一组数据的方差一定是( ) A. 正数 B. 任意实数 C. 负数 D. 非负数 【分析】本题考查方差的计算,让学生熟悉方差的计算公式 S 2
例 12:在方差公式 S 2 2 2 1 x1 x x 2 x x n x n 中,下列说法不正确的是( 2 ) A. n 是样本的容量 B. xn 是样本个体 C. x 是样本平均数 D. S 是样本方差 【分析】解剖方差公式,了解公式里面每一个代数代表的意义.D 选项是错误的. 例 13:体育课上,初二(1)班的两个小组各 8 人参加 400 米跑,要判断哪一组成绩比较整齐,通常需要知道 这两个小组 400 米跑成绩的( ) A.平均数 B.众数 C.方差 D.频率分布 例 14:已知一个样本:1,3,5, x ,2,它的平均数为 3,则这个样本的方差是 . 1 3 5 x 2 【分析】本题通过一组数据综合考察平均数和方差的定义.由平均数的定义可得: 3 ,解得 5 5 例 15: 从一排摆有 200 个苹果的架子上抽测了 10 个苹果的重量, 将测得的每一个数据 (单位: 都减去 100 g, g) 其结果如下:-8,2,-6, 10 ,3,-7,5,2,-6, 0 ; (1)这 10 个苹果中最重的与最轻的之差是 ; 10 个苹果的平均重量为 (2)这 ;方差为 . (3)求这一排苹果的重量. 【分析】这道题综合考察了极差、平均数、方差的计算和用样本估计总体的思想.可以让学生认识这些统计量和 统计方法的实际意义. (1)由所提供的数据,最大值为 10 ,最小值为-8,故最重与最轻的苹果之差为 10-(-8) 18(g) 8 2 6) 10 3 7) 5 2 6) 0 ( ( ( (2)这 10 个数据的平均值 0.5 .则这 10 个苹果的平均重 10 (8 0.5 2 (2 0.5 2 (6 0.5 2 (0 0.5 2 量为 100+(-0.5) 99.5(g)方差为 S 2 32.45 10 200 (3)由于抽测的 10 个苹果的平均值为 99.5g,因此可以估计这排苹果的重量为: 99.5 1990 (g). 10 例 16:某公司销售部有 16 名营销人员,销售部为了制定某种商品的月销售定额,统计了这 16 人某月的销售量 如下: 每人销售件数 1000 500 400 300 200 100 人 数 1 1 2 4 5 3 (1) 在这 16 名营销人员中, 销售件数在多少件的人数最多?中间的销售件数是多少?销售的平均件数是多少? (2)假设销售部要制定一个较高的销售定额,你认为应该定为多少合适?说明理由. (3) 为了调动营销人员的积极性, 销售部想让一半左右的人员达到目标, 你认为销售定额应该定为多少合适? 说明理由. (4)假设销售部把每位营销人员的月销售量定为 320 件,你认为是否合理?为什么? 【分析】这是一道关于平均数、中位数、众数的综合练习,主要考察这些统计量的实际意义. (1)这一组数据的众数是 200,中位数是 250,平均数是 300,所以销售件数在 200 件的人数最多;中间的销 售件数是 250 件;销售的平均件数是 300 件. 1 (2)从数据上看,在平均数、众数、中位数中,平均数最大,如果把 300 件定为一个较高目标,有 的销售人 4 1 员能够超过这个标准,有 的销售人员已经达到奖励标准。故定位 300 件合适.(3)月销售量在 250 件以上的 4 1 有 8 个人,占总人数的 ,这样可以充分调动销售人员积极性,故定位 250 件合适.(4)因为 16 个人里面只有 2 3 4 个人的销售量达到 320 件以上,有 的销售人员达不到要求,故将销售量定为 320 件是不合理. 4 2 2 2 2 2 x 4 ,则这组数据的方差为: S 2 (1 3 (3 3 (5 3 (4 3 (2 3 2
易错点归纳 ★ ① 忽略了加权平均数中“权“的存在 1、有 8 个数的平均数是 10 ,还有 12 个数的平均数是 12,则这 20 个数的平均数是 【正解】 x 10 8 12 12 11.2 . 这 20 个数的平均数是 11.2. 20 . ★ ② 忽略了将中位数进行排序 2、 学校 8 名学生三月份参加义务劳动的时间 (小时) 分别为 3, 4, 7, 7, 这组数据的中位数是 6, 3, 5, 4, 【错解】观察数据可得,中位数为第 4、第 5 个位置的数据的平均数,即 3 7 5 2 【正解】先将数据进行排序:3,3,4,4,5,6,7,7,因此中位数为 4 5 4.5 2 . ★ ③ 忽略了数据的个数 3、广州某地连续 10 天的最高气温统计如下: 最高气温(ºC) 22 23 24 25 26 这组数据的中位数是 . 【错解】由图表可得 5 个温度:22、23、24、25、26,中间位置的数为 24,所以中位数为 24. 天数 1 2 2 4 1 【正解】图表中 22、23、24、25、26 只是属于最高温度的类型,需要讨论的数据其实有 10 个:22、23、23、 24、24、25、25、25、25、26,因此这组数据的中位数是 24 25 24.5 2 ★ ④ 忽略了众数的个数 4、 若数据 8, 8,x , 的平均数是 7, 7, 5 则这组数据的众数是 . 正解】 【 由题意可得 878 x5 7, 5 所以, x 7 ,故这组数据的众数为 7、8. ★ ⑤ 用样本估计总体时,错把样本的统计量当做总体的统计量 5、为发展农业经济,养鸡大户王大伯 2010 年养了 2000 只鸡。上市前他随机抽取了 10 只鸡,称得质量统计如 下表:估计这批鸡的总质量是 千克 质量(单位 kg) 数量(单位 只) 【错解】 2 1 2.2 2 2.5 4 2.8 2 3 1 2 1 2.2 2 2.5 4 2.8 2 3 1 ,2.5×10 25(kg).这批鸡的总质量是 25 千克 2.5(kg) 10 【正解】2.5×2000 5000(kg).这批鸡的总质量是 5000 千克 下载本文