一、摘要
本文主要研究了葡萄酒的评价问题,涉及到多方面的因素,如品酒员的打分和葡萄酒的理化指标等。引入主成分分析的概念,将多个指标进行简化提出主要因子,再利用主要因子建立单因素方差模型;在对酿葡萄酒进行分及时将酿葡萄酒的理化指标和葡萄酒的质量进行聚类分析;通过典型相关分析得出酿酒葡萄和葡萄酒的理化指标之间的联系;最后再通过多元线性回归模型得出能用葡萄酒和葡萄酒的理化指标来评价葡萄酒的质量。
问题一研究两组品酒员对红白葡萄酒的感官评价打分是否有无显著性差异,针对这一问题首先综合品酒员的各项打分,求出每位品酒员对酒样的各项评价分值总和作为对每一酒样评价的最终结果,再以此作为因变量建立单因素方差分析模型。我们用置信区间法调整打分数据,降低品酒员的主观的影响,通过T检验比较显著性水平与置信水平得出红葡萄酒有显著性差异,白葡萄酒无显著性差异;对于两组评价结果的可信度检验,我们将分别计算出两组的方差,进行比较得出第一组比第二组更可信。
问题二是根据附件二中酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。鉴于大量的变量因子和数据,本文选择了主成分分析对数据变量进行降维,试图寻在力保数据信息丢失最少的原则下寻找影响葡萄分级的最主要因素,用MATLAB处理数据,综合分析可得出以下结果:第1主成分与还原糖、总糖、可溶性固形物有较大的正相关;第2主成分与总酸、VC有较大正相关,但与固酸比有较大的负相关;第3主成分与单宁、多酚含量有较大正相关。通过相关性分析得出还原糖与总糖、可溶性固形物呈极显著正相关;固酸比与可溶性物呈极显著正相关,与总酸、VC呈极显著负相关,其中总酸与VC含量呈极显著正相关,这与主成分分析的结果具有一致性。最后通过对这些主因子的聚类得到还原糖、总糖和可溶性固形物为一类,总酸与VC聚成一类,总酚与单宁为一类,固酸比为单独一类并将酿酒葡萄分为了三类。
问题三是对酿酒葡萄和葡萄酒的理化值作分析,根据附件2的数据我们将葡萄酒和酿酒葡萄看成组和组变量,由问题二的分析可以得出花色苷、单宁、总酚3个指标是影响葡萄酒的质量的主要因子,再对酿葡萄酒的理化指标进行主成分分析,并将28个指标简化成了总酸、蛋白质、褐色度、花色苷、果皮质量这5个主成分因子。最终利用典型相关系数分析法分析出酿酒葡萄和葡萄酒的理化指标有较高的相关性。
对于问题四,我们在问题三的基础上运用多元线性回归对酿酒葡萄和葡萄酒的理化指标作进一步分析。由问题二的分析我们将花色苷、单宁作为因变量,酿葡萄酒中的总酸、蛋白质、褐色度、花色苷、果皮质量作为自变量进行线性回归分析。根据残差效果分析出总酸、花色苷、单宁的含量越高葡萄酒的质量越好。
关键字: 主成分分析 单因素方差分析 聚类分析 典型相关系数分析 多元线性回归
二、问题重述
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:
1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?
2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
三、问题分析
对于分析两组品酒员的评价结果有无显著差异。我们首先分析附录一中的数据。由于第一、二组都有品酒员对白红葡萄酒的打分,为了比较评价结果是否具有显著性差异,现将第一组品酒员对白酒的打分和第二组品酒员对白酒的打分,第一组品酒员对红酒的打分和第二组品酒员队红酒的打分进行显著性分析。由于品酒员决定着打分情况进而我们将瓶酒员视为一个因子建立了单因素方差分析模型。通过置信区间法调整原始数据,有效降低品酒员间的主观差异,比较真实的反应酒样间的客观差异,在的置信水平下比较求得的显著性水平,若,则无显著性差异,若,则有显著性差异。对于哪组结果更可信,我们利用MATLAB软件将每组的白红葡萄酒打分均值与方差计算出来。并比较两组的方差大小,方差大则可信度更高,反之则可信度低。
问题二要求根据酿葡萄酒的理化指标和葡萄酒的质量对酿葡萄酒进行分级。对于进行过多次试验得出的葡萄理化指标数据我们对其取平均值进行分析,由于二级指标对葡萄酒的质量影响不大,所以我们仅分析一级指标对葡萄酒分级的影响。对于这一问题,我们先后使用了主成分分析、相关性分析和判别聚类的多元统计方法。主成分分析能将许多相关的随机变量压缩成少量的综合指标,同时又能反映原来较多因素的信息。按照主成分分析的理论,若前R个主成分的累计贡献率达到了85%原则,则这R个主成分能反映足够的信息。研究28个葡萄酒样的9个一级理化指标进行主成分分析,从累计贡献率分析并简化评价葡萄品质的主要指标,最后通过聚类分析对影响葡萄分级的最主要指标进行聚类,从而得到葡萄分级的指标依据。再可进一步运用这些结论,对题中给出的28个葡萄酒样进行分级。
问题二要求根据酿葡萄酒的理化指标和葡萄酒的质量对酿葡萄酒进行分级。首先分析红葡萄酒的品种知道各物质在不同品种中的含量相差不大,因而我们将各物质含量的平均值作为分析。由于二级指标对葡萄酒的质量影响不大,所以我们仅分析一级指标对葡萄酒分级的影响。
因为酿酒葡萄含有多种元素成份,我们只分析对酿葡萄酒有重要影响的元素,从而对葡萄进行分级。为了得出葡萄对酿葡萄酒有重要影响的成分,利用主成分分析法对葡萄酒的理化指标进行分析得出影响较大的元素。进而在酿酒葡萄的成分里找出这些重要元素,再利用聚类法对酿酒葡萄进行分级。分别对红葡萄和白葡萄分级,分级过程分为两部分,增加了分级的可靠性。
问题三要求分析酿酒葡萄和葡萄酒的理化指标之间的联系,由附件2中的数据可知有多个指标因而我们采用主成分分析法分析出主要因子,在利用相关系数分析法分析出两者之间的联系。
问题四要求分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,我们将葡萄酒样品质量作为因变量,各种理化指标作为自变量进行多元线性回归分析。根据问题二的分析可知花色苷、单宁和总酚对酿酒葡萄和葡萄酒起决定性作用,我们采用以上三个变量进行线性回归。最后我们分别使用单个变量的线性回归分析讨论能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
四、模型假设
(1)假设每位品酒员进行品酒事件是相互的,相互之间不受影响;
(2)假设给出的数据真实,对结果无影响;
(3)假设品酒员打分是客观公正的;
五、基本符号说明
:表示第名品酒员对样品的打分。
:表示样品的第种物质的含量。
:葡萄酒变量组
:酿酒葡萄变量组
六、模型的建立与求解
6.1 单因素模型的建立
1.问题的提出
通过对附件1的数据分析,我们将两组品酒员假定为要检验的因子(记为个)。是个相互的正态总体,分别服从于另外,是抽得的分别服从正态分布简单随机样本。则单因素方差分析模型
2.显著性检验
对于上面所提出的多个正态总体均值是否相等的问题,也就是检验假设
定义:
则有平方和分解公式:
其中,被称为组内离差平方和,它反映了品酒员的打分()在抽样过程中产生的误差程度的一个评价指标。是各组平均值与总平均值的离差平方和,反映了个总体的样本平均值之间的差异程度,即为组间平方和。通过取值的大小可以反映原假设是否成立。
3.F检验
构造F统计量
查表知显著性水平,当﹥时,则拒绝。
4.结果分析
利用MATLAB得出方差分析表及各组数据特征:
表1单因素方差分析表
图1各组数据的特征图
由上表1可知>0.05,所以红葡萄酒的打分第一组和第二组有显著性差异;<0.05, 则白葡萄酒的打分第一组和第二组无显著性差异。
第一组的红白葡萄酒和第二组的红白葡萄酒的方差:
表2方差分析表
| 方差 | 第一组 | 第二组 |
| 红葡萄酒 | 6.7690 | 11.56 |
| 白葡萄酒 | 7.7672 | 10.2501 |
6.2利用主成分分析和聚类分析法对问题二建立模型
问题二要求根据酿酒葡萄的理化指标和葡萄酒的质量对酿葡萄酒进行分级。
(1)对原始数据进行标准化处理。
首先设进行主成分分析的指标有个,分别为共有个样品,第个样品的第个指标的取值为。将个指标值转换成标准化指标值,有
其中:即为第个指标的样本均值和样本标准差。则
为标准化指标变量。
(2)计算相关系数矩阵.相关系数矩阵有
其中:是第个指标与第个指标的相关系数。
(3)利用Matlab软件编程(见附录二)求得葡萄酒相关系数矩阵的特征值及其贡献率如表3所示。
表3 红葡萄酒分析结果
| 名称 | 花色苷(mg/L) | 单宁(mmol/L) | 总酚(mmol/L) | 酒总黄酮(mmol/L) | 白藜芦醇(mg/L) | DPPH半抑制体积(IV50) 1/IV50(uL) | L*(D65) | a*(D65) |
| 特征值 | 24.1296 | 2.4741 | 0.3335 | 0.0597 | 0.0023 | 0.0007 | 0.0002 | 0.0000 |
| 贡献率 | 0.37 | 0.9853 | 0.9977 | 0.9999 | 1.0000 | 1.0000 | 1.0000 | 1.0000 |
表4白葡萄酒分析结果
| 名称 | 花色苷(mg/L) | 单宁(mmol/L) | 总酚(mmol/L) | 酒总黄酮(mmol/L) | 白藜芦醇(mg/L) | DPPH半抑制体积(IV50) 1/IV50(uL) | L*(D65) | a*(D65) |
| 特征值 | 27.9877 | 0.0074 | 0.0032 | 0.0013 | 0.0002 | 0.0001 | 0.0000 | 0.0000 |
| 贡献率 | 0.9996 | 0.9998 | 0.9999 | 1.0000 | 1.0000 | 1.0000 | 1.0000 | 1.0000 |
(4)由以上得出酿酒葡萄中对葡萄酒有重要影响的元素的理化指标表(附录一),对这些指标进行聚类分析。
记第种样品酿酒葡萄(红葡萄)中的花色苷、单宁、总酚分别为
使用绝对值距离来测量点与点之间的距离,使用最短距离法来测量类与类之间的距离,即记五位专家的打分情况为。
由距离公式利用Matlab软件(编程见附录三)得出酿酒红葡萄的聚类图:
图2 红葡萄酒的聚类图
由图2可以将酿酒红葡萄分为三个级别,一级:1、9、8、2、23、3;二级;24、14、19、5、11、15、18、20、27、12;三级:21、4、22、17、13、16、26、7、25、10、6.
同理可以得出酿酒白葡萄的聚类图:
图3 白葡萄酒的聚类图
由聚类图可以将酿酒白葡萄分为三个级别,一级:27、24、13、18、7、6;二级:9、10、28、26、2、15、16、17、3;三级:25、12、11、8、19、21、5、4、14、2、23、20、1.
6.3 相关系数模型的建立
问题三要求分析酿葡萄酒与葡萄酒的理化指标之间的联系。将葡萄酒和酿酒葡萄看成组和组变量,由模型二可以得出花色苷、单宁、总酚3个指标是影响葡萄酒的质量的主要因子,再对酿酒葡萄的理化指标进行主成分分析,并将28个指标简化成了总酸、蛋白质、褐色度、花色苷、果皮质量这5个主成分因子,有
表5 酿葡萄酒的主要成分:
| 样品 | 总酸 | 蛋白质 | 褐色度 | 花色苷 | 果皮质量 |
| 酒样1 | 2027.96 | 553.106 | 408.028 | 499.224 | 0.11 |
| 酒样2 | 2128.82 | 626.478 | 224.367 | 344.456 | 0.163 |
| 酒样3 | 8397.28 | 585.046 | 157.939 | 125.304 | 0.17 |
| 酒样4 | 2144.68 | 529.823 | 79.685 | 40.121 | 0.174 |
| 酒样5 | 1844 | 585.613 | 120.606 | 79.526 | 0.27 |
| 酒样6 | 3434.17 | 536.3 | 46.186 | 70.703 | 0.193 |
| 酒样7 | 2391.16 | 487.172 | 60.767 | 200.517 | 0.141 |
| 酒样8 | 1950.76 | 558.546 | 241.397 | 588.36 | 0.26 |
| 酒样9 | 2262.72 | 700.828 | 240.843 | 191.4 | 0.13 |
| 酒样10 | 13.14 | 545.305 | 44.203 | 202.916 | 0.2 |
| 酒样11 | 2355.69 | 542.662 | 7.787 | 47.349 | 0.102 |
| 酒样12 | 2556.79 | 493.46 | 32.343 | 68.71 | 0.243 |
| 酒样13 | 1416.11 | 606.204 | 65.324 | 58.85 | 0.16 |
| 酒样14 | 1237.81 | 599.829 | 140.257 | 448.492 | 0.255 |
| 酒样15 | 2177.91 | 524.613 | 52.792 | 82.423 | 0.213 |
| 酒样16 | 1553.5 | 583.374 | 60.66 | 234.928 | 0.135 |
| 酒样17 | 1713.65 | 548.833 | 59.424 | 65.348 | 0.33 |
| 酒样18 | 2398.38 | 513.817 | 40.228 | 83.56 | 0.16 |
| 酒样19 | 2463.6 | 544.462 | 115.704 | 104.36 | 0.162 |
| 酒样20 | 2273.63 | 559.332 | 23.523 | 45.581 | 0.232 |
| 酒样21 | 6346.83 | 563.794 | .282 | 93.611 | 0.108 |
| 酒样22 | 2566.61 | 488.712 | 74.027 | 191.47 | 0.147 |
| 酒样23 | 2380.81 | 543.574 | 172.626 | 192.387 | 0.233 |
| 酒样24 | 1638.83 | 525.82 | 144.881 | 70.636 | 0.247 |
| 酒样25 | 1409.7 | 537.084 | 49.3 | 68.565 | 0.22 |
| 酒样26 | 851.17 | 587.293 | 58.469 | 53.597 | 0.23 |
| 酒样27 | 1116.61 | 528.331 | 34.19 | 266.962 | 0.2 |
| 样品 | 花色苷 | 单宁 | 总酚 |
| 酒样1 | 973.878 | 11.03 | 9.983 |
| 酒样2 | 517.581 | 11.078 | 9.56 |
| 酒样3 | 398.77 | 13.259 | 8.549 |
| 酒样4 | 183.519 | 6.477 | 5.982 |
| 酒样5 | 280.19 | 5.849 | 6.034 |
| 酒样6 | 117.026 | 7.354 | 5.858 |
| 酒样7 | 90.825 | 4.014 | 3.858 |
| 酒样8 | 918.688 | 12.028 | 10.137 |
| 酒样9 | 387.765 | 12.933 | 11.313 |
| 酒样10 | 138.714 | 5.567 | 4.343 |
| 酒样11 | 11.838 | 4.588 | 4.023 |
| 酒样12 | 84.079 | 6.458 | 4.817 |
| 酒样13 | 200.08 | 6.385 | 4.93 |
| 酒样14 | 251.57 | 6.073 | 5.013 |
| 酒样15 | 122.592 | 3.985 | 4.0 |
| 酒样16 | 171.502 | 4.832 | 4.044 |
| 酒样17 | 234.42 | 9.17 | 6.168 |
| 酒样18 | 71.902 | 4.447 | 4.353 |
| 酒样19 | 198.614 | 5.981 | 5.157 |
| 酒样20 | 74.377 | 5.8 | 4.858 |
| 酒样21 | 313.784 | 10.09 | 8.941 |
| 酒样22 | 251.017 | 7.105 | 6.199 |
| 酒样23 | 413.94 | 10.888 | 12.529 |
| 酒样24 | 270.108 | 5.747 | 5.394 |
| 酒样25 | 158.569 | 5.406 | 4.425 |
| 酒样26 | 151.481 | 3.615 | 3.8 |
| 酒样27 | 138.455 | 5.961 | 4.734 |
表三 典型相关系数
| 序号 | 1 | 2 | 3 |
| 典型相关系数 | 0.9539 | 0.7865 | 0.3628 |
表7 结构分析(相关系数)
| 0.9976 | -0.0514 | -0.0453 | 0.9517 | -0.0404 | 0.01 | |
| 0.7843 | 0.5999 | 0.1580 | 0.7482 | 0.4718 | -0.0573 | |
| 0.8065 | 0.3567 | 0.4715 | 0.7693 | 0.2805 | -0.1711 |
| 0.1457 | 0.82 | 0.0466 | 0.13 | 0.3196 | -0.0169 | |
| 0.3350 | 0.4271 | -0.3352 | 0.3196 | 0.9267 | 0.1216 | |
| 0.9715 | -0.0424 | -0.2221 | 0.9267 | 0.7523 | 0.0806 | |
| 0.7887 | -0.2594 | 0.4630 | 0.7523 | -0.0456 | -0.1680 | |
| -0.0479 | -0.0527 | 0.23 | -0.0456 | 0.3196 | -0.1050 |
表8 被典型变量解释的组原始变量的方差
| 被本组的典型变量解释 | 典型相关系数平方 | 被对方组典型变量解释 | ||||
| 比例 | 累计比例 | 比例 | 累计比例 | |||
| 0.7536 | 0.7536 | 0.9099 | 0.6857 | 0.6857 | ||
| 0.1632 | 0.9169 | 0.6186 | 0.1010 | 0.7867 | ||
| 0.0831 | 1.0000 | 0.1316 | 0.0109 | 0.7977 | ||
| 被本组的典型变量解释 | 典型相关系数平方 | 被对方组典型变量解释 | ||||
| 比例 | 累计比例 | 比例 | 累计比例 | |||
| 0.3403 | 0.3403 | 0.9099 | 0.3097 | 0.3097 | ||
| 0.1874 | 0.5278 | 0.6186 | 0.1157 | 0.4256 | ||
| 0.0924 | 0.6202 | 0.1316 | 0.0122 | 0.4378 | ||
6.4 多元线性回归模型
1.模型
将样品作为一个因变量,为各物质建立多元线性回归模型为
其中:称为回归系数。
得到个数据,其中为的观测值,分别为的观测值,有
,
2.参数估计
上述模型中的参数用最小二乘法估计,即应选取估计值时,误差平方和
达到最小。而
为残差平方和。
利用Matlab软件得出以下结果
图4 葡萄酒花色苷对于酿酒葡萄中总酸、蛋白质、褐色度、花色苷、果皮质量的残差图
图5葡萄酒单宁对于酿酒葡萄中总酸、蛋白质、褐色度、花色苷、果皮质量的残差图
七、模型分析与推广
本文建立的单因素方差模型只考虑了一个因素对实验的影响,避免了其它因素的干挠,利于数据处理和变量分析。
主成分分析模型可以将许多相关性很高的变量转化成彼此相互或不相关的变量且减少了变量的个数,但能解释大部分资料中的变异,起到了降维的作用,便于寻找影响葡萄分级的主因子,减少了数据的处理量,利于抓住问题的关键。
利用典型相关分析法建立模型可以使原始的两组变量之间的系数简单化,通过变量相互影响的显著性水平来反映变量间的关系。
聚类分析的运用使得主因子的分类与等级更具条理化、明显化。
文章通过主成分分析、聚类分析、相关性分析简化影响葡萄分级的指标,寻找主因子搜索分级的最主要指标,在实际生活中具有一定的指导意义。
本论文只考虑了附件中的一级指标,忽略了二级指标,虽简化了对数据的大量处理,但也使得结论不精确化,而且对不同品种中葡萄的有无核,颜色等因素对葡萄品质的影响没有考虑进去,可能对结果的准确性有一定的影响,在今后的研究中还需要根据这些因素进行深入研究,从而得到更准确、可靠的结果
八、参考文献
【1】 赵静 但琪 ,数学建模与数学实验 ,高等教育出版社,2003.
【2】 司守奎 孙玺菁,数学建模算法与应用,国防工业出版社,2011.
【3】 何正风 ,MATLAB在数学方面的应用,清华大学出版社,2012.
【4】 姜启源 谢金星 ,数学模型,高等教育出版社,2003.
【5】 张丽芝 ,贺兰山东麓红葡萄酒等级划分客观标准的初步研究,中国食物
与营养,2012, 18( 3): 29-32。
九、附录
酿酒葡萄重要元素指标
| 红酿酒葡萄 | 白酿酒葡萄 | |||||
| 花色苷 | 总酚 | 单宁 | 花色苷 | 总酚 | 单宁 | |
| 样品1 | 408.028 | 23.604 | 22.019 | 0.819 | 5.336 | 2.947 |
| 样品2 | 224.367 | 26.875 | 23.361 | 0.404 | 5.09 | 2.239 |
| 样品3 | 157.939 | 21.685 | 20.373 | 2.79 | 6.972 | 2.99 |
| 样品4 | 79.685 | 10.698 | 8.638 | 2.032 | 5.248 | 3.148 |
| 样品5 | 120.606 | 17.618 | 14.486 | 0.388 | 6.323 | 2.626 |
| 样品6 | 46.186 | 10.671 | 15.173 | 0.834 | 10.541 | 4.502 |
| 样品7 | 60.767 | 9.214 | 5.619 | 2.477 | 10.267 | 4.729 |
| 样品8 | 241.397 | 15.241 | 22.4 | 2.8 | 5.134 | 1.672 |
| 样品9 | 240.843 | 30.114 | 24.362 | 3.685 | 5.814 | 4.434 |
| 样品10 | 44.203 | 9.476 | 16.688 | 0.844 | 7.728 | 6.781 |
| 样品11 | 7.787 | 6.075 | 4.543 | 0.407 | 7.854 | 3.312 |
| 样品12 | 32.343 | 12.059 | 7.169 | 0.409 | 8.483 | 3.212 |
| 样品13 | 65.324 | 14.385 | 9.822 | 2.509 | 11.774 | 2.129 |
| 样品14 | 140.257 | 14.657 | 13.941 | 0.404 | 5.324 | 2.388 |
| 样品15 | 52.792 | 11.901 | 25.417 | 1.629 | 8.871 | 2.751 |
| 样品16 | 60.66 | 11.214 | 10.086 | 4.103 | 5.007 | 2.228 |
| 样品17 | 59.424 | 15.336 | 15.73 | 2.0 | 6.575 | 2.247 |
| 样品18 | 40.228 | 7.381 | 5.388 | 0.812 | 11.957 | 5.783 |
| 样品19 | 115.704 | 17.426 | 13.7 | 2.072 | 4.725 | 2.217 |
| 样品20 | 23.523 | 12.677 | 8.115 | 0.829 | 5.251 | 3.141 |
| 样品21 | .282 | 16.192 | 13.613 | 0.819 | 4.367 | 1.952 |
| 样品22 | 74.027 | 16.442 | 12.155 | 1.651 | 6.409 | 6.463 |
| 样品23 | 172.626 | 29.704 | 24.257 | 1.244 | 5.127 | 3.3 |
| 样品24 | 144.881 | 8.751 | 14.417 | 0.372 | 10.755 | 8.506 |
| 样品25 | 49.3 | 11.502 | 9.324 | 0.67 | 7.666 | 2.757 |
| 样品26 | 58.469 | 7.348 | 3.778 | 1.657 | 5.816 | 5.517 |
| 样品27 | 34.19 | 8.7 | 10.31 | 0.42 | 16.965 | 6.251 |
| 样品28 | 2.057 | 6.567 | 4.583 |
z=[1.620 2.110
1.233 3.160
2.009 2.940
2.017 4.050
1.595 4.370
1.2 2.0
1.374 2.260
1.513 2.610
1.844 3.880
2.058 2.270
1.415 2.610
2.307 3.040
1.515 2.110
1.320 2.680
2.530 2.710
1.279 3.790
1.549 3.250
1.330 1.840
1.963 3.590
2.676 2.770
1.204 3.620
1.7 4.190
1.330 4.980
4.473 3.780
1.505 4.320
1.569 7.080
3.375 4.420
2.029 5.710
];
X=z';
function [f,r,maxda]=factorfist(X);
[n,p]=size(X);
mX=mean(X);
vX=var(X);
for i=1:p
end
v=corrcoef(X0);
[v0,lamda0]=eig(v);
lamda1=sum(lamda0);
lamda=lamda1(find(lamda1>0));
v1=v0(:,find(lamda1>0));
k=1;
while(k<=length(lamda))
end
lamdarate=maxda/sum(maxda)
r=(zeros(1,length(maxda)));
for l=1:length(maxda)
End
附录三
红葡萄酒
a=[408.028 22.019
224.367 23.361
157.939 20.373
79.685 8.638
120.606 14.486
46.186 15.173
60.767 5.619
241.397 22.4
240.843 24.362
44.203 16.688
7.787 4.543
32.343 7.169
65.324 9.822
140.257 13.941
52.792 25.417
60.660 10.086
59.424 15.730
40.228 5.388
115.704 13.700
23.523 8.115
.282 13.613
74.027 12.155
172.626 24.257
144.881 14.417
49.3 9.324
58.469 3.778
34.190 10.310
];
y=pdist(a,'cityblock');
yc=squareform(y)
z=linkage(y)
[h,t]=dendrogram(z)
T=cluster(z,'maxclust',3)
for i=1:3
tm=find(T==i);
tm=reshape(tm,1,length(tm));
fprintf('第%d类的有%s\\n',i,int2str(tm));
end
白葡萄酒
b=[0.819 2.947
0.404 2.239
2.790 2.990
2.032 3.148
0.388 2.626
0.834 4.502
2.477 4.729
2.8 1.672
3.685 4.434
0.844 6.781
0.407 3.312
0.409 3.212
2.509 2.129
0.404 2.388
1.629 2.751
4.103 2.228
2.0 2.247
0.812 5.783
2.072 2.217
0.829 3.141
0.819 1.952
1.651 6.463
1.244 3.3
0.372 8.506
0.670 2.757
1.657 5.517
0.420 6.251
2.057 4.583];
y=pdist(b,'cityblock');
yc=squareform(y)
z=linkage(y)
[h,t]=dendrogram(z)
T=cluster(z,'maxclust',3)
for i=1:3
tm=find(T==i);
tm=reshape(tm,1,length(tm));
fprintf('第%d类的有%s\\n',i,int2str(tm));
end
附录四
gj=z';
gj=zscore(gj);
r=corrcoef(gj);
[x,y,z]=pcacov(r)
f=repmat(sign(sum(x)),size(x,1),1);
x=x.*f
num=3;
df=gj*x(:,[1:num]);
tf=df*z(1:num)/100;
[stf,ind]=sort(tf,'descend');
stf=stf',ind=ind'
附录五
a=[973.878 9.983
517.581 9.56
398.77 8.549
183.519 5.982
280.19 6.034
117.026 5.858
90.825 3.858
918.688 10.137
387.765 11.313
138.714 4.343
11.838 4.023
84.079 4.817
200.08 4.93
251.57 5.013
122.592 4.0
171.502 4.044
234.42 6.168
71.902 4.353
198.614 5.157
74.377 4.858
313.784 8.941
251.017 6.199
413.94 12.529
270.108 5.394
158.569 4.425
151.481 3.8
138.455 4.734];
>> b=[2027.96 0.110
2128.82 0.163
8397.28 0.170
2144.68 0.174
1844.00 0.270
3434.17 0.193
2391.16 0.141
1950.76 0.260
2262.72 0.130
13.14 0.200
2355.69 0.102
2556.79 0.243
1416.11 0.160
1237.81 0.255
2177.91 0.213
1553.50 0.135
1713.65 0.330
2398.38 0.160
2463.60 0.162
2273.63 0.232
6346.83 0.108
2566.61 0.147
2380.81 0.233
1638.83 0.247
1409.70 0.220
851.17 0.230
1116.61 0.200
];
>> p=size(a,2);
>> q=size(b,2);
>> a=zscore(a);b=zscore(b);
>> n=size(a,1);
>> [x1,y1,r,u1,v1,stats]=canoncorr(a,b)
>> x=x1.*repmat(sign(sum(x1)),size(x1,1),1)
>> y=y1.*repmat(sign(sum(y1)),size(y1,1),1)
>> u=u1.*repmat(sign(sum(x1)),size(u1,1),1)
>> v=v1.*repmat(sign(sum(y1)),size(v1,1),1)
>> a_u_r=a'*u/(n-1)
>> b_v_r=b'*v/(n-1)
>> a_v_r=a'*v/(n-1)
>> b_u_r=b'*u/(n-1)
>> ua=sum(a_u_r.^2)/p
>> ua_cum=cumsum(ua)
>> va=sum(a_v_r.^2)/p
>> va_cum=cumsum(va)
>> vb=sum(b_v_r.^2)/q
>> vb_cum=cumsum(vb)
>> ub=sum(b_u_r.^2)/q
>> ub_cum=cumsum(ub)
>> val=r.^2
>> y=[973.878
517.581
398.77
183.519
280.19
117.026
90.825
918.688
387.765
138.714
11.838
84.079
200.08
251.57
122.592
171.502
234.42
71.902
198.614
74.377
313.784
251.017
413.94
270.108
158.569
151.481
138.455
];
>> x=[2027.96 0.11
2128.82 0.163
8397.28 0.17
2144.68 0.174
1844 0.27
3434.17 0.193
2391.16 0.141
1950.76 0.26
2262.72 0.13
13.14 0.2
2355.69 0.102
2556.79 0.243
1416.11 0.16
1237.81 0.255
2177.91 0.213
1553.5 0.135
1713.65 0.33
2398.38 0.16
2463.6 0.162
2273.63 0.232
6346.83 0.108
2566.61 0.147
2380.81 0.233
1638.83 0.247
1409.7 0.22
851.17 0.23
1116.61 0.2
];
>> [b,bint,r,rint,stats]=regress(y,x)
Warning: R-square and the F statistic are not well-defined unless X has a column of ones.
Type "help regress" for more information.
> In regress at 158
b =
505.0419
bint =
1.0e+003 *
-0.0000 0.0000
-0.0005 -0.0000
0.0015 0.0025
0.0001 0.0007
-0.0415 1.0516
r =
-15.4906
-44.7474
-14.7716
-92.7665
183.6032
-77.4480
-40.4752
110.3363
-197.5474
-16.8342
-23.7853
-47.8290
-16.3414
-51.8761
-15.1466
rint =
-88.7617 132.7614
-166.1363 135.1550
-124.3138 186.3836
-145.2314 152.2713
-170.2611 140.7180
-160.7510 146.3016
-110.4590 177.5772
-192.0416 111.0912
-29.9508 250.6235
-305.0174 -90.0774
-173.9677 140.2992
-125.5482 1.7513
-90.41 182.4711
-180.5621 132.9915
-203.3455 107.6874
-148.1053 161.1843
-45.6054 211.3735
-116.4869 195.0685
-168.39 136.2111
-108.5188 200.1033
-102.0825 197.0128
-161.8737 131.5805
stats =
1.0e+003 *
0.0009 0.0539 0.0000 5.8119
>> rcoplot(r,rint)
附录六
葡萄酒单宁对于酿酒葡萄中总酸、蛋白质、褐色度、花色苷、果皮质量的线性回归:
>> y=[11.03
11.078
13.259
6.477
5.849
7.354
4.014
12.028
12.933
5.567
4.588
6.458
6.385
6.073
3.985
4.832
9.17
4.447
5.981
5.8
10.09
7.105
10.888
5.747
5.406
3.615
5.961
];
>> x=[2027.96 0.11
2128.82 0.163
8397.28 0.17
2144.68 0.174
1844 0.27
3434.17 0.193
2391.16 0.141
1950.76 0.26
2262.72 0.13
13.14 0.2
2355.69 0.102
2556.79 0.243
1416.11 0.16
1237.81 0.255
2177.91 0.213
1553.5 0.135
1713.65 0.33
2398.38 0.16
2463.6 0.162
2273.63 0.232
6346.83 0.108
2566.61 0.147
2380.81 0.233
1638.83 0.247
1409.7 0.22
851.17 0.23
1116.61 0.2
];
>> [b,bint,r,rint,stats]=regress(y,x)
b =
bint =
0.0005 0.0013
-0.0024 0.0081
0.0096 0.0307
-0.0050 0.0075
-4.6195 17.8258
r =
rint =
-4.0333 0.12
-1.6604 4.4067
-2.4015 1.7961
-2.9401 3.4610
-4.7170 1.1783
-2.6991 3.6767
-4.9653 1.1630
-1.0256 3.7941
0.6018 5.3493
-2.8143 3.4845
-2.9099 3.0368
-2.6848 3.5718
-2.0743 3.9797
-4.5618 0.9399
-5.1136 1.0840
-3.5916 2.3538
0.0492 5.2044
-4.3021 2.0718
-4.4578 1.8840
-2.9836 3.3658
-2.5110 2.9816
-2.4673 3.9369
-1.0376 4.9758
-4.7085 1.0183
-3.1121 3.2812
-4.5996 1.4374
-1.8555 4.0910
stats =
0.6925 15.4965 0.0000 2.4503
>> rcoplot(r,rint)
葡萄酒总酚对于酿酒葡萄中总酸、蛋白质、褐色度、花色苷、果皮质量的线性回归:
>> y=[9.983
9.56
8.549
5.982
6.034
5.858
3.858
10.137
11.313
4.343
4.023
4.817
4.93
5.013
4.0
4.044
6.168
4.353
5.157
4.858
8.941
6.199
12.529
5.394
4.425
3.8
4.734
];
>> x=[2027.96 0.11
2128.82 0.163
8397.28 0.17
2144.68 0.174
1844 0.27
3434.17 0.193
2391.16 0.141
1950.76 0.26
2262.72 0.13
13.14 0.2
2355.69 0.102
2556.79 0.243
1416.11 0.16
1237.81 0.255
2177.91 0.213
1553.5 0.135
1713.65 0.33
2398.38 0.16
2463.6 0.162
2273.63 0.232
6346.83 0.108
2566.61 0.147
2380.81 0.233
1638.83 0.247
1409.7 0.22
851.17 0.23
1116.61 0.2
];
>> [b,bint,r,rint,stats]=regress(y,x)
b =
bint =
0.0000 0.0009
-0.0011 0.0092
0.0112 0.0316
-0.0068 0.0052
-6.7451 14.9481
r =
rint =
-4.0115 0.0147
-2.1425 3.7961
-3.5913 0.1674
-2.6379 3.5395
-3.7504 2.1068
-2.7246 3.4438
-3.9999 2.0912
-1.1618 3.5303
-0.6122 4.3799
-3.1591 2.9349
-2.6933 3.0521
-3.0380 3.0214
-3.1461 2.7615
-4.3632 0.9682
-4.1026 2.0734
-3.5822 2.1532
-2.1580 3.3043
-3.4134 2.8178
-4.3182 1.8094
-2.9548 3.1832
-1.1575 3.9973
-2.0957 4.0631
2.5670 6.8693
-4.3510 1.2400
-3.4044 2.7684
-3.9991 1.9232
-2.1709 3.6218
stats =
0.6759 12.2419 0.0000 2.2888
>> rcoplot(r,rint)下载本文