视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
气象观测站的优化调整
2025-10-03 15:07:53 责编:小OO
文档
观测站的优化问题

摘要

    本文是为了解决有关观测点的优化问题,即为达到减少观测站同时既可以节省开支,又可以使得该市年降水量的信息量损失较小的目地。本文采用层层推进的方法,对问题逐一求解,具体如下:

    针对问题1,本文先将观测点7,8的数据通过SPSS做相关性分析,得出其具有显著正相关的结论,并以观测点8为自变量,7为因变量,构建线性回归模型,用matlab解得到观测点7的回归方程,得出观测点7可以减少,其数据可由观测点8得到的结论。

    针对问题2,本文先用分层聚类法,以各类间欧氏距离尽可能远,组内距离尽可能近为原则将剩余9个观测点分组,再以组内成员多于一个的组剔除一个成员为准则,在分别构建回归函数,并用SPSS里的F检验验证回归方程是否显著,最终得到可以去掉观测点2,6,7的结论。

    针对问题3,本文先通过EXCEL处理数据,利用问题1,2中得到的回归方程计算出减少观测点前后的误差绝对值。然后本文基于假设建立误差绝对值的正态分布模型,用极大似然估计法给出正态分布均值和方差的点估计值,并用ttest对假设显著性进行检验,组后得出假设成立的结论。最后通过正态分布累计概率计算公式算得误差绝对值小于10mm的概率约为0.777,大于20mm的概率为0.0555。

    最后,本文对模型中分组问题作了讨论,并结合实际做了的优缺点进行了评价,提出了细化分组的改进方案,对模型进行了简单的推广。

关键词:回归分析,相关性分析,分层聚类,极大似然估计

一、问题的提出与重述

问题的提出:

某市有10个县,每个县有一个气象观测站,每个气象观测站测得的年降水量即为该县的年降水量。30年来各观测站测得的年降水量如附表1。为了节省开支,想要适当减少气象观测站,但希望减少观测站同时既可以节省开支,又可以使得该市年降水量的信息量损失较小。请你选出这些观测站。

问题的重述:

1.第7个观测站和第8个观测站观测到的数据之间可能有相关关系,所以第7个观测站可以减少,第7个观测站的年降水量信息可以从第8个观测站观测到的数据中获取,问如何得出,并予以讨论。

2.除了观测点7还有哪些观测站可以减少,减少的观测站的年降水量信息如何获取。

3.如果以10个县年降水量的平均值为该市年平均降水量。在减少观测站以前,每个县年降水量都是观测数据。在减少观测站以后,被减少的观测站的年降水量只能从其它观测站观测到的数据中获取。减少观测站以前和减少观测站以后是用两种不同测量计算方法得到该市年平均降水量。两种不同测量计算方法得到的该结果会有误差,试预测误差的绝对值小于10mm的概率是多少?误差的绝对值大于20mm的概率是多少?

一、问题的分析

本题是希望选取一些作用不大的观测站,并予以淘汰。要求既可以节省开支,又可以使得该市年降水量的信息量损失较小。本文需要做的是找出哪些观测点间相关性大并发现相关观测点间的降雨量关系。

针对问题1本文先通过SPSS中的相关性检验来验证两观测点间是否相关性较大,然后通过构建回归模型得到观测点7的回归方程,从而可以通过观测点8得出观测点7的降雨量数据。

针对问题2本文先用分层聚类法对剩下9个观测点进行分组,初步得出分为4组和每组的成员,然后在多于一个成员的组任意选出一个要剔除的观测点,通过构建回归模型通过每组中留下的点得出除去的观测点的回归方程,并用F法检验其是否服从原假设(是否舍去)。

针对问题3 本文列出未减少观测站时的年平均降水量。再用减少后的观测站得出年平均降水量,求其差,得到误差绝对值。然后假设误差绝对值服从正态分布,通过matlab数据分析检验假设的正确性,最后通过正态分布累计概率公式计算出题中要求结果。

二、模型假设

(1)假设这段时间内该地区没有洪涝灾害,干旱等自然灾害的影响;

(2)假设每个观测点成本都是一样的,不存在拆除观测点时成本不一的问题;

(3)不考虑其他地区对该地区的影响。

三、符号及变量说明

:第个观测点的实际降雨量(=3,8,10);

:第个观测点估测的降雨量(=2,4,6,7);

:回归拟合得到的系数(=1,2);

    其他符号会在文中说明

四、模型的建立与求解

 5.1.1对于问题一的模型建立

根据题意,本人先用SPSS对观测点7、8测得的年降水量数据进行相关性分析,分析结果如表1:

表1

相关性
78
7Pearson 相关性1.952**
显著性(双侧).000
平方与叉积的和509175.467451818.667
协方差17557.77515579.954
N3030
8Pearson 相关性.952**1
显著性(双侧).000
平方与叉积的和451818.667442122.667
协方差15579.95415245.609
N3030
**. 在 .01 水平(双侧)上显著相关。
结果分析:从表1可以看出Pearson 相关性为0.952,可以认为两者的相关系数为.952,属于正相关关系,显著性(双侧)为0.000<0.01,具备显著性,从而得出观测点7和8的测量数据具有显著正相关关系。

于是本文以观测点8测得的降雨量数据为自变量,以观测点7测得的降雨量数据为因变量建立线性回归模型,以检验第7个观测站的年降水量信息是否可以从第8个观测站观测到的数据中获取:

    其中为随机误差,固定的未知参数、为回归系数,自变量x为回归变量。

5.1.2对于问题一模型的求解和检验

   本文利用MATLAB统计工具箱中的命令regress求解,设置置信水平为0.05,得到回归残差图:

图1初步回归残差图

    从图1可知有两个异常点,即第9个和第19个数据点,剔除以后再做线性回归得到新的残差图:

图2第二步回归残差图

    由残差图可知,调整后的数据第十个点还是异常点,将第十个点数据剔除再次做线性回归得到回归图:

 

  图3观测站7,8线性回归图

    从图2中可以直观看出,回归拟合度较好。

表2相应参数

参数参数估计值参数置信区间
53.254[7.477    99.032]

 

1.034

[0.929    1.1409]

      =0.942

F=405.432

P<0.0001

    由=0.942可知y有94.2%的数据可模型确定,F值远远超过F检验的临界值,p远小于置信度0.05,因而该模型从整体上来说是可用的。

于是得到线性回归方程:

=53.254+1.034

因此观测站7可以去除,其数据是可以通过观测站8得到的。

5.2.1对于问题二模型的建立

    本人采用分层聚类法中的Q型聚类分析将10个观测站进行合理分组。通过SPSS分类中的系统聚类命令对十个观测站30年观测的数据进行分析,分析结果如下:

图4 各观测站聚类树状图

     若将其分成4类,分类结果如下表:

表3观测点分组

群集成员
案例4 群集
观测站11
观测站22
观测站32
观测站42
观测站53
观测站64
观测站84
观测站93
观测站102
    由表格可知:观测站6、7、8为一组;观测站2、3、4、10为一组,且该组内观测站2和观测站3相似度高,观测站4和观测站10相似度高;观测站9和观测站5一组;观测站1单独一组。

成员多于一个的组可以考虑剔除其中一个观测站,由于第一问中已经验证第七组可以剔除,其数据可由观测站8得到,所以现假设观测站6、2、5可以剔除,其数据可由组内其他成员得到。可对每组内成员之间进行回归分析,建立一元或多元回归模型,并检验模型的可行性。

5.2.2模型的求解和检验

5.2.2.1剔除观测站6

    需要检验其数据是否可以从观测站8得到。本人以观测站8的数据为自变量,以观测的数据为因变量,用SPSS做回归分析。

表4

模型汇总b
模型RR 方调整 R 方标准 估计的误差Durbin-Watson
1.903a.816.80956.436101.824
      ,调整=0.809很接近1

表5

Anovaa
模型平方和df均方FSig.
1回归394880.9271394880.927123.980.000b
残差180.939283185.034
总计484061.86729
    从表5方差分析表中得知:F统计量为123.908,系统自动检验的显著性水平为0.000,表明回归极显著。F(0.05,1,28)值为4.196,F(0.001,1,28)值为13.498。因此回归方程相关非常显著。(F值可在Excel中用FINV()函数获得)

表6

系数a
模型非标准化系数标准系数tSig.B 的 95.0% 置信区间
B标准 误差试用版下限上限
1(常量)52.81937.3251.415.168-23.637129.275
观测站8.945.085.90311.135.000.7711.119
    由表可以得到回归方程:

因此可知,观测点6可以剔除,祈数据可由观测点8通过上式方程得到得到。

5.2.2.2剔除观测站5

以观测站5的数据为因变量,观测站9的数据为自变量,用SPSS做回归分析

表7

Anovaa
模型平方和df均方FSig.
1回归351.7831351.783.053.820b
残差187006.083286678.7
总计187357.86729
a. 因变量: 观测站4
b. 预测变量: (常量), 观测站10。
    表5方差分析表中得知:F统计量为0.053,系统自动检验的显著性水平为0.0.82,表明回归不显著,所以观测点5不能减少。

5.2.2.3剔除观测站2

表8

模型汇总b
模型RR 方调整 R 方标准 估计的误差Durbin-Watson
1.921a.848.83038.575981.807
a. 预测变量: (常量), 观测站10, 观测站4, 观测站3。
b. 因变量: 观测站2
    较大,回归可用。

表9

系数a
模型非标准化系数标准系数tSig.B 的 95.0% 置信区间
B标准 误差试用版下限上限
1(常量)91.204.7541.408.171-41.900224.308
观测站3.883.074.93311.901.000.7311.036
观测站4-.147.0-.126-1.3.112-.330.037
观测站10-.120.095-.100-1.271.215-.315.074
a. 因变量: 观测站2
    观测站10和观测站4的系数置信区间过零点,因此观测点4和观测站10和观测站2无显著想关。需要对回归模型进行修正,只对观测站2和观测站3做回归分析。

修正后:

表10

模型汇总b
模型RR 方调整 R 方标准 估计的误差Durbin-Watson
1.906a.822.81540.241751.579
    较大,回归可用。

表11

Anovaa
模型平方和df均方FSig.
1回归208824.3061208824.306128.952.000b
残差45343.161281619.399
总计254167.46729
a. 因变量: 观测站2
b. 预测变量: (常量), 观测站3。
    F统计量为123.908,系统自动检验的显著性水平为0.000,表明回归极显著。

表12

系数a
模型非标准化系数标准系数tSig.B 的 95.0% 置信区间
B标准 误差试用版下限上限
1(常量)-16.82841.056-.410.685-100.92867.271
观测站3.858.076.90611.356.000.7041.013
a. 因变量: 观测站2

5.3.1对于问题三模型的建立

    用EXCEL求出去除观测点2,6,7前后各年份年均降雨量,和和前后的差的绝对值值(附录1)。

      假设其误差的绝对值服从正态分布,建立正态分布模型~N(),估计出和便可求出误差的绝对值小于10mm的概率和大于20mm的概率,原理如下:

对于一般的正态曲线,其概率计算公式为: 

P ( a     如果将定积分的形式与结果用累积函数(或称分布函数)表示,那么,正态曲线下从 - ∞ 到 x 的面积,其式如下: 

F ( x ) = 

F(x) 称为正态分布的累积函数。现如给变数任一定值,假如 x 等于 a ,那么,随机变数 xP ( x 根据以上的方法,如果 a 、 b(aP(a5.3.2对于问题三模型检验和求解

模型检验和求解步骤如下:

Step1  由MATLAB命令histfit()大致观察一下数据的正态分布趋势得到如下图形:

Step2  由命令normplot()正态概率纸检验数据是否来自正态分布,得到如此啊图形:

Step3 由命令normfit()预测出均值和方差:

         

Step4 由命令ttest做均值为6.2362显著性水平为0.05的检验:

           

表示不拒绝原假设,说明原假设误差绝对值的均值是合理的。

从而得到误差绝对值

所以预测误差的绝对值小于10mm的概率为 P(x<10)=F(10)=0.777。误差的绝对值大于20mm的概率是P(x<20)=1-F(20)=0.0555。

五、模型的评价与改进

在处理问题2时本文利用分层聚类法对观测站进行了分组,采用主观化分组,误差较大。且初步分为4组,在模型求解时发现组内观测站2和3有显著相关性,而观测站4和观测站10却与观测站2无显著相关;观测站5和观测站9也无显著相关性。于是本文提出改进方案将分组细化,分为六组,分别为:6,7,8一组,2,3一组,4,10一组,9一组,5一组,1一组。

参考文献

[1] 司守奎 孙玺箐.《数学建模算法与应用》.国防工业出版社,2011

[2] 姜启源 谢金星.《数学模型》.高等教育出版社,2011

[3] 韩中庚. 数学建模方法及其应用. 北京 高等教育出版社.  322-343 .2005

附录一:减少观测站前后年均降雨量及误差绝对值

年份前均值后均值差绝对值年份前均值后均值差绝对值
1976451.2459.95338.75331991528.8536.97028.1702
1977461.6468.94717.34711992565.6550.306215.2938
1978534.4538.62874.22871993459.2462.98723.7872
1979513.6525.799912.19991994523.2515.60787.5922
1980497.6504.48716.88711995440.8449.40798.6079
1981468474.74256.74251996624.8622.362.4354
1982570.4574.61564.21561997580582.55922.5592
1983548532.754515.24551998577.6577.00860.5914
1984496485.100210.981999484476.33627.6638
1985475.2467.09268.10742000474.4479.27784.8778
1986532537.88465.88462001432426.97145.0286
1987467.2460.32746.87262002527.2527.08420.1158
1988420419.8420.1582003516518.91812.9181
195.6581.19158.408520044460.33623.6638
1990551.2549.7341.4662005555.2561.56366.3636
附录二:

x=load('5.txt');

y=load('9.txt'); 

plot(x,y,'o')

hold on

X=[ones(30,1) x];

[b,bint,r,rint,stats]=regress(y,X);

b

bint

r

rint

stats

 

plot(x,y,'o',x,b(1)+b(2)*x,'r');

xlabel('观测站8的年降雨量数据')

ylabel('观测站7的年降雨量数据')

figure

 rcoplot(r,rint)

x=load('误差分析.txt')

normplot(x)

figure

histfit(x) 

[u,s,uci,sci]=normfit(x)下载本文

显示全文
专题