1、模 式 识 别 结 业 论 文 (采用聚类分析的方法对两种葡萄进行分类) 学院:计算机与信息工程学院学院:计算机与信息工程学院 班级:班级:20112011 级通信工程班级通信工程班 采用聚类分析的方法对两种葡萄进行分类 摘要摘要 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级, 建立聚 类分析模型。首先因为样品酒的 60 个指标之间具有较强的相关性,所以对变量 指标进行 R 型聚类分析, 降低变量个数; 然后采用 Q 型聚类分析对样本进行分类。 把两组样品葡萄分为 5 类。红葡萄分类结果:第一类:样品 8(反式白藜芦醇苷 指标为 5.283,而其他样品都小于 1);第二类:样品
2、3(氨基酸指标为 8397.28 远大于该指标均值 2385.31) 第三类: 样品 10 (VC 含量 10.25,远大于均值 0.477) ; 第四类:样品 1、2、4、5、6、7、9、12、13、14、15、16、17、18、19、20、 21、22、23、24、25、26、27;第五类:酒样品 11(花色苷指标为 104.92,远 大于均值 7.787); 关键词关键词: R 型聚类 Q 型聚类 1 问题分析 要根据酿酒葡萄和葡萄酒的质量的这两种葡萄进行分级, 首先对原始酿酒葡 萄的理化指标数据进行整理, 并把葡萄酒的平均质量指标作为葡萄的变量指标进 行考虑。由于白葡萄和红葡萄的分析方
3、法相同,所以我们以红葡萄为例来进行分 析。 首先定性考察反映红葡萄指标状况的 60 个方面,可以看出某些指标之间可 能存在较强的相关性。比如氨基酸的总量与天门冬氨酸、苏氨酸、丝氨酸、谷氨 酸、脯氨酸、甘氨酸、丙氨酸、胱氨酸、缬氨酸、蛋氨酸、异亮氨酸、酪氨酸、 苯丙氨酸、赖氨酸、组氨酸、精氨酸之间可能存在较强的相关性,白藜芦醇与反 式白藜芦醇苷、顺势白藜芦醇苷、反式白藜芦醇、顺势白藜芦醇之间可能存在较 强的相关性, 还原糖与果糖和葡萄糖之间存在较强的相关性, 为了验证这种想法, 运用 MATLAB 软件计算 60 个指标的相关系数矩阵. 其次由相关性矩阵可以判断某些指标之间确实存在很强的相关性,
4、 因此可以 考虑从这些指标中选取几个有代表性的指标进行聚类分析。为此,把 60 个指标 根据其相关性进行 R 型聚类,聚成 20 类,再从每个类中选取代表性的指标。首 先对每个变量的数据分别进行标准化处理。变量间相近性度量采用相关系数,类 间相近性度量的计算选用类平均法,编写 MATLAB 程序,从而求出聚类树形图。 最后根据这 20 个变量指标对 27 中红葡萄进行聚类分析。 首先对每个变量的 数据分别进行标准化处理,样本间相似性采用欧氏距离度量,类间距离的计算选 用类平均法,编写 MATLAB 程序,从而得到葡萄聚类树形图。 2 模型的建立与求解 根据求得的相关系数矩阵, 采用R型分析和Q
5、型分析的方法对葡萄进行分类, 具体的数学模型如下: (1)首先对葡萄的指标进行标准化处理,然后通过下面的模型可以求出葡 萄变量指标的相关系数矩阵; (2) 然后采用最短距离法求出相关系数矩阵中两个类中最近两点间的距离, 再采用 dendrogram 函数,即可画出葡萄变量指标的聚类树形图; (1) 最后对每个变量指标的数据分别进行标准化处理, 样本间间的相似性 采用欧氏距离度量,类间距离的计算选用类平均法,然后再次使用 dendrogram 函数求出葡萄的聚类树状图,从而得到葡萄的分类结果。 3 模型的结果与分析 1)红葡萄分类的结果与分析如下: (1)对红葡萄变量的聚类树状图: 图 1 对红
6、葡萄变量的聚类树状图 由图形和 MATLAB 程序可知,把葡萄的变量指标分为 20 类,其中还原糖,果 糖,葡萄糖,可溶性物质,PH 值、可滴定酸,顾酸比,干物质含量,果穗质量, 百粒质量,果梗比,出汁率,果皮质量,L*,果皮颜色 a+,果皮颜色 b*,H,C, 18 个变量指标之间有较大的相关性,被聚到一起;氨基酸,脯氨酸,花色苷 3 个变量指标之间存在有较大的相关性, 被聚到一起; 丝氨酸, 缬氨酸, 异亮氨酸, 亮氨酸,赖氨酸,组氨酸,精氨酸之间存在较大的相关性,被聚成一类;白藜芦 醇和顺势白藜芦醇苷之间存在较大的相关性,被聚成一类;黄酮醇。槲皮素,异 鼠李素,总糖之间存在较大的相关性,被聚成一类;苏氨酸,谷氨酸,丙氨酸, 苹果酸,柠檬酸,多酚氧化酶,褐变度,DPPH 自由基,总酚,单宁,葡萄总黄 酮之间存在较大的相关性,被聚成一类;其余各自成一类。这样就从 60 个指标 中选定 20 个分析指标,可以根据这 35 个指标对 27 种红葡萄进行聚类分析。 (2)27 种红葡萄聚成 5 类的树状图 图 2 27 种红葡萄聚成 5 类的树状图 由图可知,各种红葡萄之间