1、 装 订 线 装 订 线 数学软件实践 课程设计报告 题 目:MATLAB 实现 DNA 序列的分类识别 学 号: 姓 名: 教 师 日 期: 论文题目 论文题目 1 摘 要 2 1 问题重述 3 2 问题分析 3 3 模型假设 3 4 符号说明 4 5 模型的建立与求解 4 5.1 问题一的模型 . 4 5.1.1 模型建立 4 模型 I 5 5.1.2 模型求解 5 5.2 问题二的模型 . 6 5.2.1 模型建立 6 模型 II 7 5.2.2 模型求解 8 5.3 问题三的模型 . 9 5.3.1 模型建立 9 模型 III . 9 5.3.2 模型求解 10 6 模型的评价与改进
2、.11 附 录 12 A.1 附录描述 1 . 12 A.2 附录描述 2 . 19 A.3 附录描述 3 . 22 2 摘 要 1) D NA序列矩阵 a) 首先调用函数_Iim portdata,将txt文档中的字符读入到w orkspace中,将 其中不是ATG C的字符用A来替换,存到矩阵D N A中。 b) 给定D N A序列 12N Ss ss, i sA C G T,,A T G C分别表示序列S的 前i(1 2iN)个元素中A C G T出现的次数.编写函数_Icalculate计算 出D NA序列每一行的,A T G C。 c) 根据定义的欧几里得距离矩阵,为了求解ED方便,
3、写编写一个函数 _1IE D,求出四个矩阵,A ij Tij G ij C ij,然后编写函数_IED,便可以求出 AGCTACG TATG C,对应的ED。 d) 根据定义的路径距离矩阵,编写函数_IPD,根据不同的ED,求出不同的 PD。 e) 根据定义的商矩阵,编写函数_IEP,由(b)和(c)求出的ED和PD计算出对 应的EP。 f) 根据定义的商矩阵,编写函数_IE G,由(b)求出的ED计算出对应的EG。 2) 最大特征矩阵 对于给定的D NA序列, 令 123456 (),其中 123456 分 别表示矩阵,ED EP EG的标准化( i N)的最大特征根。将求得的结果放于 矩阵
4、123EG aEG aEG a,中。 3) 调用给定程序作出D N A序列的聚类树图 可以根据给定的程序_Idendrogram,对于123EG aEG aEG a,分别作图。 4) MATLAB 的一些基础知识 关键字:D N A序列、最大特征根、聚类树图、MATLAB 基础知识 3 1 问题重述 题目给的是关于D NA序列的问题,首先给出一个txt文档,是构成D NA序列的 A T G C字符,但其中有不是ATG C的字符,要求将txt文档中的所有字符序列读入到矩 阵D NA中, 并将其中不是ATG C的字符用ATG C中的任意一个换掉, 得到正确的D N A矩 阵。然后分别计算矩阵,A
5、T G C (例如 i T表示前i个字符中含有的T的个数)。再根据 ,A T G C四个矩阵不同的输入顺序求出 6 个不同的ED矩阵,对每个ED矩阵,可以求 出对应的PD,再由,E D P D求出对应的EP。对每个ED矩阵,也可以求出对应的EG矩 阵。 假设输入D N A序列的第一行,求出 6 个不同的,ED EP EG后,每个矩阵可以求得一 个最大特征根,这样 6 个ED有 6 个最大特征根,放于矩阵1E G a (1E G a为 24*6 的矩 阵)的第一行中,6 个EP有 6 个最大特征根,放于矩阵2E G a (2EG a为 24*6 的矩阵) 的第一行中,6 个EG有 6 个最大特征
6、根,放于矩阵3E G a (3E G a为 24*6 的矩阵)的第 一行中。当把D N A序列的 24 行遍历完,1,2,3EG aEG aEG a三个矩阵便赋值完成。 提示中给了画D N A序列的聚类树图的程序,调用此程序,便可完成 3 个图的绘制。 2 问题分析 首先调用函数_Iim portdata,将txt文档中的字符读入到矩阵D N A中,将其中不是 ATG C的字符用A来替换。编写函数_Icalculate计算出D N A序列每一行的,A T G C。 根据定义的欧几里得距离矩阵,为了求解ED方便,先由函数_1IE D,求出四个矩阵 ,A ij T ij G ij C ij,然后由函数_IED,便可以求出,AG CT AC G T AT G C对应的ED。根 据定义的路径距离矩阵,由函数_IPD,根据不同的ED,求出不同的PD。根据定义 的商矩阵,由函数_IEP和求出的ED和PD计算出对应的EP。根据定义的商矩阵,由