全基因组选择之模型篇
在介绍GS模型之前,我们有必要先来了解一下混合线性模型(Mixed Linear Model,MLM)。混合线性模型是一种方差分量模型,既然是线性模型,意味着各量之间的关系是线性的,可以应用叠加原理,即几个不同的输入量同时作用于系统的响应,等于几个输入量单独作用的响应之和(公式1)。
?= Xβ + e = +? 1 ? 1 +? 2 ? 2 +?+ +? (公式1)
式中?表示响应变量的测量值向量, X 为固定效应自变量的设计矩阵, β 是与 X 对应的固定效应参数向量; 、? 1 、?、 是未知参数; 、? 1 、?、 是影响各因素的观察值;?是残差。同时需要满足条件: E(y)=Xβ,Var(y)=σ 2 I, y 服从正态分布。
既然是混合效应模型,则既含有固定效应,又含有随机效应。所谓固定效应是指所有可能出现的等级或水平是已知且能观察的,如性别、年龄、品种等。所谓随机效应是指随机从总体中抽取样本时可能出现的水平,是不确定的,如个体加性效应、母体效应等(公式2)。
y = Xβ + Zμ +? (公式2)
式中 y 为观测值向量; β 为固定效应向量; μ 为随机效应向量,服从均值向量为0、方差协方差矩阵为G的正态分布 μ ~ N(0,G) ; X 为固定效应的关联矩阵; Z 为随机效应的关联矩阵;?为随机误差向量,其元素不必为独立同分布,即 ? ~ N(0,R) 。同时假定 Cov(G,R)=0 ,即G与R间无相关关系, y 的方差协方差矩阵变为 Var(y)=ZGZ+R 。若 Zμ 不存在,则为固定效应模型。若 Xβ 不存在,则为随机效应模型。
在传统的线性模型中,除线性关系外,响应变量还有正态性、独立性和方差齐性的假定。混合线性模型既保留了传统线性模型中的正态性假定条件,又对独立性和方差齐性不作要求,从而扩大了适用范围,目前已广泛应用于基因组选择。
很早以前C.R.Henderson就在理论上提出了最佳线性无偏预测(Best Linear Unbiased Prediction,BLUP)的统计方法,但由于计算技术滞后限制了应用。直到上世纪70年代中期,计算机技术的发展为BLUP在育种中的应用提供了可能。BLUP结合了最小二乘法的优点,在协方差矩阵已知的情况下,BLUP是分析动植物育种目标性状理想的方法,其名称含义如下:
在混合线性模型中,BLUP是对随机效应中随机因子的预测,BLUE(Best Linear Unbiased Estimation)则是对固定效应中的固定因子的估算。在同一个方程组中既能对固定效应进行估计,又能对随机遗传效应进行预测。
BLUP方法最初应用在动物育种上。传统的动物模型是基于系谱信息构建的亲缘关系矩阵(又称A矩阵)来求解混合模型方程组(Mixed Model Equations,MME)的,因此称之ABLUP。Henderson提出的MME如下所示:
式中X为固定效应矩阵,Z为随机效应矩阵,Y为观测值矩阵。其中R和G:
其中A为亲缘关系矩阵,因此可转化公式为:
进一步可转化为:
通过求解方程组,计算残差和加性方差的方差组分,即可得到固定因子效应值 (BLUE)和随机因子效应值 (BLUP)。
作为传统BLUP方法,ABLUP完全基于系谱信息来构建亲缘关系矩阵,进而求得育种值,此方法在早期动物育种中应用较多,现在已基本不单独使用。
VanRaden于2008年提出了基于G矩阵的GBLUP(Genomic Best Linear unbiased prediction)方法,G矩阵由所有SNP标记构建,公式如下:
GBLUP通过构建基因组关系矩阵G代替基于系谱信息构建的亲缘关系矩阵A,进而直接估算个体育种值。
GBLUP求解过程同传统BLUP方法,仅仅在G矩阵构建不同。除了VanRaden的基因组关系构建G矩阵外,还有其他G矩阵构建方法,但应用最多的还是VanRaden提出的方法。如Yang等提出的按权重计算G矩阵:
Goddard等提出的基于系谱A矩阵计算G矩阵:
目前GBLUP已经广泛应用于动植物育种中,并且因为它的高效、稳健等优点,现在仍饱受青睐。GBLUP假设所有标记对G矩阵具有相同的效应,而在实际基因组范围中只有少量标记具有主效应,大部分标记效应较小,因此GBLUP仍有很大的改进空间。
在动物育种中,由于各种各样的原因导致大量具有系谱记录和表型信息的个体没有基因型,单步法GBLUP(single-step GBLUP,ssGBLUP)就是解决育种群体中无基因型个体和有基因型个体的基因组育种值估计问题。
ssGBLUP将传统BLUP和GBLUP结合起来,即把基于系谱信息的亲缘关系矩阵A和基因组关系矩阵G进行整合,建立新的关系矩阵H,达到同时估计有基因型和无基因型个体的育种值。
H矩阵构建方法:
式中w为加权因子,即多基因遗传效应所占比例。
构建H矩阵后,其求解MME过程也是与传统BLUP一样:
ssBLUP由于基因分型个体同时含有系谱记录和表型数据,相对于GBLUP往往具有更高的准确性。该方法已成为当前动物育种中最常用的动物模型之一。在植物育种中,往往缺乏较全面的系谱信息,群体中个体的基因型也容易被测定,因此没有推广开来。
如果把GBLUP中构建协变量的个体亲缘关系矩阵换成SNP标记构成的关系矩阵,构建模型,然后对个体进行预测,这就是RRBLUP(Ridge Regression Best Linear Unbiased Prediction)的思路。
为什么不直接用最小二乘法?最小二乘法将标记效应假定为 固定效应 ,分段对所有SNP进行回归,然后将每段中显著的SNP效应相加得到个体基因组育种值。该方法只考虑了少数显著SNP的效应,很容易导致多重共线性和过拟合。
RRBLUP是一种改良的最小二乘法,它能估计出所有SNP的效应值。该方法将标记效应假定为 随机效应 且服从正态分布,利用线性混合模型估算每个标记的效应值,然后将每个标记效应相加即得到个体估计育种值。
一般而言,基因型数据中标记数目远大于样本数(p>>n)。RRBLUP因为是以标记为单位进行计算的,其运行时间相比GBLUP更长,准确性相当。
GBLUP是直接法的代表,它把个体作为随机效应,参考群体和预测群体遗传信息构建的亲缘关系矩阵作为方差协方差矩阵,通过迭代法估计方差组分,进而求解混合模型获取待预测个体的估计育种值。RRBLUP是间接法的代表,它首先计算每个标记效应值,再对效应值进行累加,进而求得育种值。下图比较了两类方法的异同:
直接法估计 ,间接法估计标记效应之和 M 。当K=M’M且标记效应g服从独立正态分布(如上图所示)时,两种方法估计的育种值是一样的,即 = M 。
基于BLUP理论的基因组选择方法假定所有标记都具有相同的遗传方差,而实际上在全基因组范围内只有少数SNP有效应,且与影响性状的QTL连锁,大多数SNP是无效应的。当我们将标记效应的方差假定为某种先验分布时,模型变成了贝叶斯方法。常见的贝叶斯方法也是Meuwissen提出来的(就是提出GS的那个人),主要有BayesA、BayesB、BayesC、Bayesian Lasso等。
BayesA假设每个SNP都有效应且服从正态分布,效应方差服从尺度逆卡方分布。BayesA方法事先假定了两个与遗传相关的参数,自由度v和尺度参数S。它将Gibbs抽样引入到马尔科夫链蒙特卡洛理论(MCMC)中来计算标记效应。
BayesB假设少数SNP有效应,且效应方差服从服从逆卡方分布,大多数SNP无效应(符合全基因组实际情况)。BayesB方法的标记效应方差的先验分布使用混合分布,难以构建标记效应和方差各自的完全条件后验分布,因此BayesB使用Gibbs和MH(Metropolis-Hastings)抽样对标记效应和方差进行联合抽样。
BayesB方法在运算过程中引入一个参数π。假定标记效应方差为0的概率为π,服从逆卡方分布的概率为1-π,当π为1时,所有SNP都有效应,即和BayesA等价。当遗传变异受少数具有较大影响的QTL控制时,BayesB方法准确性较高。
BayesB中的参数π是人为设定的,会对结果带来主观影响。BayesC、BayesCπ、BayesDπ等方法对BayesB进行了优化。BayesC方法将π作为未知参数,假定其服从U(0,1)的均匀分布,并假设有效应的SNP的效应方差不同。BayesCπ方法在BayesC的基础上假设SNP效应方差相同,并用Gibbs抽样进行求解。BayesDπ方法对未知参数π和尺度参数S进行计算,假设S的先验分布和后验分布均服从(1,1)分布,可直接从后验分布中进行抽样。
下图较为形象地说明了不同方法的标记效应方差分布:
Bayesian Lasso(Least absolute shrinkage and selection operator)假设标记效应方差服从指数分布的正态分布,即拉普拉斯(Laplace)分布。其与BayesA的区别在于标记效应服从的分布不同,BayesA假设标记效应服从正态分布。Laplace分布可允许极大值或极小值以更大概率出现。
从以上各类贝叶斯方法可看出,贝叶斯方法的重点和难点在于如何对超参的先验分布进行合理的假设。
Bayes模型相比于BLUP方法往往具有更多的待估参数,在提高预测准确度的同时带来了更大的计算量。MCMC需要数万次的迭代,每一次迭代需要重估所有标记效应值,该过程连续且不可并行,需消耗大量的计算时间,限制了其在时效性需求较强的动植物育种实践中的应用。
为提高运算速度和准确度,很多学者对Bayes方法中的先验假设和参数进行优化,提出了fastBayesA、BayesSSVS、fBayesB、emBayesR、EBL、BayesRS、BayesTA等。但目前最常用的Bayes类方法还是上述的几种。
各种模型的预测准确度较大程度的取决于其模型假设是否适合所预测表型的遗传构建。一般而言,调参后贝叶斯方法的准确性比BLUP类方法要略高,但运算速度和鲁棒性不如BLUP。因此,我们应根据自身需求权衡利弊进行合理选择。
除了基于BLUP和Bayes理论的参数求解方法外,基因组选择还有半参数(如RKHS,见下篇)和非参数,如机器学习(Machine Learning, ML)等方法。机器学习是人工智能的一个分支,其重点是通过将高度灵活的算法应用于观察到的个体( 标记的数据 )的已知属性( 特征 )和结果来预测未观察到的个体( 未标记的数据 )的结果。结果可以是连续的,分类的或二元的。在动植物育种中, 标记的数据 对应于具有基因型和表型的训练群体,而 未标记的数据 对应于测试群体,用于预测的 特征 是SNP基因型。
相比于传统统计方法,机器学习方法具有诸多优点:
支持向量机(Support Vector Machine,SVM)是典型的非参数方法,属于监督学习方法。它既可解决分类问题,又可用于回归分析。SVM基于结构风险最小化原则,兼顾了模型拟合和训练样本的复杂性,尤其是当我们对自己的群体数据不够了解时,SVM或许是基因组预测的备选方法。
SVM的基本思想是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。在支持向量回归(Support Vector Regression,SVR)中,通常使用近似误差来代替像SVM中那样的最佳分离超平面和支持向量之间的余量。假设ε为不敏感区域的线性损失函数,当测量值和预测值小于ε时,误差等于零。SVR的目标就是同时最小化经验风险和权重的平方范数。也就是说,通过最小化经验风险来估计超平面。
下图1比较了SVM中回归(图A)和分类(图B)的差别。式中ξ和ξ*为松弛变量,C为用户定义的常数,W为权重向量范数,?表示特征空间映射。
当SVM用于预测分析时,高维度的大型数据集会给计算带来极大的复杂性,核函数的应用能大大简化内积,从而解决维数灾难。因此,核函数的选择(需要考虑训练样本的分布特点)是SVM预测的关键。目前最常用的核函数有:线性核函数、高斯核函数(RBF)和多项式核函数等。其中, RBF具有广泛的适应性,能够应用于训练样本(具有适当宽度参数)的任何分布。尽管有时会导致过拟合问题,但它仍是使用最广泛的核函数。
集成学习(Ensemble Learning)也是机器学习中最常见的算法之一。它通过一系列学习器进行学习,并使用某种规则把各个学习结果进行整合,从而获得比单个学习器更好的效果。通俗地说,就是一堆弱学习器组合成一个强学习器。在GS领域,随机森林(Random Forest,RF)和梯度提升机(Gradient Boosting Machine,GBM)是应用较多的两种集成学习算法。
RF是一种基于决策树的集成方法,也就是包含了多个决策树的分类器。在基因组预测中,RF同SVM一样,既可用做分类模型,也可用做回归模型。用于分类时,注意需要事先将群体中个体按表型值的高低进行划分。RF算法可分为以下几个步骤:
最后,RF会结合分类树或回归树的输出进行预测。在分类中,通过计算投票数(通常使用每个决策树一票)并分配投票数最高的类别来预测未观察到的类别。在回归中,通过对ntree输出进行求平均。
有两个影响RF模型结果的重要因素:一是每个节点随机取样的协变量数量(mtry,即SNP数目)。构建回归树时,mtry默认为p/3(p是构建树的预测数量),构建分类树时,mtry为[上传失败...(image-10f518-1612450396027)] ;二是决策树的数量。很多研究表明树并非越多越好,而且构树也是非常耗时的。在GS应用于植物育种中,通常将RF的ntree设置在500-1000之间。
当GBM基于决策树时,就是梯度提升决策树(Gradient Boosting Decision Tree,GBDT),和RF一样,也是包含了多个决策树。但两者又有很多不同,最大的区别在于RF是基于bagging算法,也就是说它将多个结果进行投票或简单计算均值选出最终结果。而GBDT是基于boosting算法,它通过迭代的每一步构建弱学习器来弥补原模型的不足。GBM通过设置不同的损失函数来处理各类学习任务。
虽然已经有不少研究尝试了将多种经典机器学习算法应用于基因组预测中,但提升的准确性仍然有限,而且比较耗时。在无数的机器学习算法中,没有一种方法能够普遍地提高预测性,不同的应用程序及其最优方法和参数是不同的。相比于经典的机器学习算法,深度学习(Deep Learning,DL)或许是未来应用于基因组预测更好的选择。
传统的机器学习算法如SVM,一般是浅层模型。而深度学习除了输入和输出层,还含有多个隐藏层,模型结构的深度说明了它名字的含义。DL的实质是通过构建具有很多隐藏层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。DL算法的建模过程可简单分为以下三步:
在GS领域,研究较多的DL算法,包括多层感知器(Multi-layer Perceptron,MPL)、卷积神经网络(Convolutional neural network,CNN)和循环神经网络(Recurrent Neural Networks,RNN)等。
MLP是一种前馈人工神经网络(Artificial Neural Network,ANN)模型,它将输入的多个数据集映射到单一的输出数据集上。MLP包括至少一个隐藏层,如下图2中所示,除了一个输入层和一个输出层以外,还包括了4个隐藏层,每一层都与前一层的节点相连,并赋予不同权重(w),最后通过激活函数转化,将输入映射到输出端。
CNN是一类包含卷积计算且具有深度结构的前馈神经网络,通常具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。CNN的隐藏层中包含卷积层(Convolutional layer)、池化层(Pooling layer)和全连接层(Fully-connected layer)三类,每一类都有不同的功能,比如卷积层的功能主要是对输入数据进行特征提取,池化层对卷积层特征提取后输出的特征图进行特征选择和信息过滤,而全连接层类似于ANN中的隐藏层,一般位于CNN隐藏层的最末端,并且只向全连接层传递信号。CNN结构如下图3所示。
需要注意的是,深度学习不是万能的。使用DL的前提是必须具有足够大和质量好的训练数据集,而且根据GS在动植物方面的研究表明,一些DL算法和传统的基因组预测方法相比,并没有明显的优势。不过有一致的证据表明, DL算法能更有效地捕获非线性模式。因此,DL能够根据不同来源的数据通过集成GS传统模型来进行辅助育种。总之,面对将来海量的育种数据,DL的应用将显得越来越重要。
以上是GS中常见的预测模型,不同分类方式可能会有所区别。这里再简单介绍一下上述未提及到但比较重要的方法,其中一些是上述三类方法的拓展。
再生核希尔伯特空间(Reproducing Kernel Hilbert Space,RKHS)是一种典型的半参数方法。它使用高斯核函数来拟合以下模型:
RKHS模型可采用贝叶斯框架的Gibbs抽样器,或者混合线性模型来求解。
GBLUP仍然是动植物育种中广泛应用的方法,它假定所有标记都具有相同的效应。但在实际情况中,任何与目标性状无关的标记用来估计亲缘关系矩阵都会稀释QTL的作用。很多研究对其进行改进,主要有几种思路:
沿用以上的思路,sBLUP(Settlement of Kinship Under Progressively Exclusive Relationship BLUP, SUPER BLUP)方法将TABLUP进一步细化为少数基因控制的性状,这样基因型关系矩阵的构建仅仅使用了与性状关联的标记。
如果要在亲缘关系矩阵中考虑群体结构带来的影响,可根据个体遗传关系的相似性将其分组,然后将压缩后的组别当做协变量,替换掉原来的个体,而组内个体的亲缘关系都是一样的。因此在构建基因组关系矩阵时,可用组别的遗传效应值来代替个体的值,用个体对应的组来进行预测,这就是cBLUP(Compressed BLUP)。
以上思路都提到了将已验证和新发现的位点整合到模型中,这些位点从何而来?最常见来源自然是全基因组关联分析(Genome Wide Association Study, GWAS)。GS和GWAS有着天然的联系,将GWAS的显著关联位点考虑进GS中,直接的好处是能维持多世代的预测能力,间接的好处是能增加已验证突变的数量。
下图比较了GWAS辅助基因组预测的各类方法比较。a表示分子标记辅助选择方法(MAS),只利用了少数几个主效位点;b表示经典GS方法,利用了全部标记,且标记效应相同;c对标记按权重分配;d将显著关联标记视为固定效应;e将显著关联标记视为另一个随机效应(有其自身的kernel derived);f将染色体划分为片段,每个片段构建的G矩阵分配为不同的随机效应。
GWAS辅助基因组预测的结果会比较复杂,单纯地考虑将关联信号纳入模型不一定都能提高准确性,具体表现应该和性状的遗传构建有关。
GS对遗传效应的估计有两种不同的策略。一是关注估计育种值,将加性效应从父母传递给子代。而非加性效应(如显性和上位性效应)与特定基因型相关,不能直接遗传。当估计方差组分时,非加性效应通常和随机的环境效应一起被当成噪音处理。另一种策略同时关注加性和非加性效应,通常用于杂种优势的探索。杂交优势一般认为是显性和上位性效应的结果,因此,如果非加性效应很明显,而你恰好将它们忽略了,遗传估计将会产生偏差。
杂种优势利用是植物育种,尤其是水稻、玉米等主粮作物的重要研究课题。将非加性遗传效应考虑进GS模型进行杂交种预测,也是当前基因组预测在作物育种中研究的热点之一。
当然,杂种优势效应的组成也是随性状而变化的,不同性状的基因组预测需要与鉴定杂优QTL位点结合起来。由于一般配合力GCA(加性效应的反映)和特殊配合力SCA(非加性效应的反映)可能来自不同遗传效应,所以预测杂交种F 1 应该分别考虑GCA和SCA。GCA模型可以基于GBLUP,重点在基因型亲缘关系矩阵构建。SCA模型有两种方法:一是将杂优SNP位点的Panel作为固定效应整合进GBLUP模型中;二是使用非线性模型,如贝叶斯和机器学习方法。据报道,对于加性模型的中低遗传力性状,机器学习和一般统计模型比较一致。但在非加性模型中,机器学习方法表现更优。
传统的GS模型往往只针对单个环境中的单个表型性状,忽略了实际情况中多性状间或多环境间的相互关系。一些研究通过对多个性状或多个环境同时进行建模,也能提高基因组预测的准确性。以多性状(Multi-trait,MT)模型为例,多变量模型(Multivariate model,MV)可用如下公式表示:
多性状选择一般用于性状间共有某种程度的遗传构建,即在遗传上是相关的。尤其适用于对低遗传力性状(伴随高遗传力性状相关)或者难以测量的性状。
农作物的环境条件不如动物容易控制,而且大部分性状都是数量性状,很容易受到环境影响。多环境(Multi-environment,ME)试验发挥了重要作用,基因型与环境互作(Genotype by E nvironment,G × E)效应也是当前基因组选择关注的焦点。
除了GBLUP,多变量模型也可基于贝叶斯框架的线性回归,或者基于非线性的机器学习方法。
我们知道,基因经过转录翻译以及一系列调控后才能最终体现在表型特征上,它只能在一定程度上反映表型事件发生的潜力。随着多组学技术的发展,整合多组学数据用于基因组预测也是目前GS研究的一个重要方向。
在植物育种中,除基因组外,转录组学和代谢组学是当前GS研究相对较多的两个组学。转录组将基因表达量与性状进行关联预测,代谢组则将调控表型的小分子含量与性状进行关联预测,对于某些特定的性状而言,可能会提高预测能力。最好的方法是将各个组学的数据共同整合进模型,但这样会大大增加模型的复杂度。
表型测定的准确性直接影响模型的构建。对于一些复杂性状,单凭肉眼观察记录显然已不可取,而且表型调查费时费力,成本很高。因此,高通量表型组也是GS发展的重要方向。表型的范畴非常之广,当个体性状不可简单测量时,我们也可采用多组学数据,如蛋白组、代谢组等数据来替代。
考虑到成本效益问题,多组学技术在动植物育种中仍处于研究阶段,但代表了未来的应用方向。
集成系统支持下的信息提取
设备的鼓励政策:
高效输配水、节水灌溉技术及设备制造
低热值燃料(含煤矸石)及煤矿伴生资源开发利用及设备制造
提高资源回收率的采煤方法、工艺开发应用及装备制造
现代化热轧宽带钢轧机关键技术开发应用及关键部件制造
薄板坯连铸连轧关键技术开发应用及关键部件制造
冷连轧宽带钢关键技术开发应用及关键部件制造
高精铝板、带、箔及高速薄带铸轧生产技术开发与设备制造
大型己内酰胺、乙二醇、丙烯腈的生产技术开发和成套设备制造
10.大型、精密、专用铸锻件技术开发及设备制造
11.500千伏及以上超高压交、直流输变电成套设备制造
12.清洁能源发电设备制造(核电、风力发电、太阳能、潮汐等)
13.30万吨/年及以上合成氨成套设备制造
14.60万吨/年及以上乙烯成套设备制造技术开发及应用
机械
1.数控机床关键零部件及刀具制造
2.三轴以上联动的高速、精密数控机床,数控系统及交流伺服装置、直线电机制造
3.新型传感器开发及制造
4.轿车轴承、铁路轴承、精密轴承、低噪音轴承制造
5.转轮直径8.5米及以上混流、轴流式水电设备及其关键配套辅机制造
6.大型贯流及抽水蓄能水电机组及其关键配套辅机制造
7.60万千瓦及以上超临界及超超临界火电机组成套设备技术开发、设备制造及其关键配套辅机制造
8.30万千瓦及以上循环流化床锅炉制造
9.40万千瓦级以上燃气、蒸汽联合循环设备制造
10.大型、精密、专用铸锻件技术开发及设备制造
11.500千伏及以上超高压交、直流输变电成套设备制造
12.清洁能源发电设备制造(核电、风力发电、太阳能、潮汐等)
13.30万吨/年及以上合成氨成套设备制造
14.60万吨/年及以上乙烯成套设备制造技术开发及应用
15.集散型(DCS)控制系统及智能化现场仪表开发及制造
16.精密仪器开发及制造
17.新型液压、气动、密封元器件及装置制造
18.自动化焊接设备技术开发及设备制造
19.大型、精密模具及汽车模具设计与制造
20.可控气氛及大型真空热处理技术开发及设备制造
21.安全生产及环保检测仪器设计制造
22.城市垃圾处理设备制造
23.粉煤灰储运、利用成套设备制造
24.废旧电器、塑料、废旧橡胶回收利用设备制造
25.海水淡化和海水直接利用设备制造
26.工业机器人及其成套系统开发制造
27.500万吨/年及以上矿井综合采掘、装运成套设备及大型煤矿洗选机械设备制造
28.2000万吨级/年及以上大型露天矿成套设备制造
29.大型油气集输设备制造
30.自动化高速多色成套印刷设备制造
31.种、肥、水、药高效施用和保护性耕作等农机具制造
32.5吨/时以上种子加工成套设备开发制造
33.禽、畜类自动化养殖成套设备制造
34.设施农业设备制造
35.农、林、渔、畜产品深加工及资源综合利用设备制造
36.秸秆综合利用关键设备制造
37.农业(棉花、水稻、小麦、玉米、豆类、薯类、草饲料等)收获机械制造
38.营林及人工植被工业化生产设备制造技术开发
39.大型工程施工机械及关键零部件开发及制造
40.电控内燃机及关键零部件技术开发与制造
41.蓄冷(热)技术开发及设备制造
42.大型能量回收装置成套设备设计制造
43.7000米及以上深井钻机成套设备设计制造
44.高性能清淤设备制造
45.医疗废物集中处理设备制造
46.自动气象站系统技术开发及设备制造
47.特种气象观测及分析设备制造
48.地震台站、台网和流动地震观测技术系统开发及仪器设备制造
49.地质灾害监测治理新技术及设备研发
50.有害气体净化设备制造
51.食品质量安全检验检测相关技术及设备
52.报废汽车拆解、破碎处理设备制造
(一)GIS支持下的遥感图像处理
GIS常常与遥感图像处理手段结合起来使用,更有效的增强与提取遥感信息。这主要表现在两个方面。
一方面是GIS作为重要的辅助手段用于遥感影像的目视解译,以提高解译精度。具体做法是将那些有助于图像解译的矢量专题图层(比如地质图、地形图、土地利用图及植被覆盖、水系发育等等)与待解译的影像叠加显示,前提是这些矢量图层必须先与影像进行过坐标配准,具有统一的坐标。这可以用于人机交互的影像解译,直接在屏幕上画出影像解译结果,还可用于在影像的监督分类前进行选取正确的训练样区以便提高分类精度。在这方面的应用中,同时还要注意这些专题图层与影像的时间差,比如植被覆盖与时相的相关性很大,另外如果时间相差较长,要充分考虑到一些客观条件上的变化,如土地利用类型、建筑物、道路等的变化。
GIS与遥感图像处理结合应用的另一方面表现在:在GIS技术支持下,地学及其他知识直接参与遥感图像的处理中,比如遥感图像的分类中可以将DEM、NDVI等知识直接作为遥感影像的新增波段,与其他波段一起进行分类,这样分类结果中就将反映出这些专题信息的分布。还比如专家系统的应用也是GIS与遥感技术结合应用的成果。
(二)GIS支持下的专题信息提取
1.遥感专题信息提取方法研究的发展
遥感专题信息提取(thematic information extraction)是从遥感影像资料中获取某种特定地物特征的信息,其目的是区别图像中所含的专题目标。分类也是一种专题信息提取的方法,但专题信息提取和一般意义上的遥感图像分类有所不同,先定目标,然后有意识地专门面向对象进行识别,而分类是就图像中即有的像元给予类别的归属与划分。它的方法随着遥感技术的改进及遥感应用的深入也在不断地改进,经历了目视解译、自动分类、光谱特性的信息提取及光谱与空间特征的信息提取等多个阶段。
目视解译是最初的图像识别方式。现在的图像识别沿着两个方向发展,一是由计算机的出现带来的信息识别自动化,二是沿着遥感信息传输的本质而探寻信息识别的高精度。它们没有严格的界限,随着各自的发展而相互渗透。现有的计算机自动分类方法,都只是利用了图像数据,没有自动加入其他方面,如地学的知识,没有充分利用人脑在分析图像时所应用的知识,因此不会达到很高的精度。基于知识及专家系统的分类对分类的精度有所改善。同样,专题信息提取的最初是分析特定目标的光谱特征,形成规则,对图像进行操作。计算机领域中人工智能的出现使基于知识或信息的专题信息提取成为可能。遥感成像是从多到少的映射,是个确定过程,影像解译是从少到多的映射,是个不确定过程。因此在遥感解译时,包含一个重要的地学处理过程,它包括两个方面,一是把遥感未带回的信息再补上去,即补充地学相关信息,二是根据影像信息进行地学分析,来推断出影像上未反映的信息,这都需要地学知识强有力的支持。如何把地学专家用于目视解译的知识定量化表达,让它来参与计算机处理,从根本上实现知识参与的自动提取,这是目前专题信息自动提取研究的焦点问题。
计算机自动分类前,先对训练区进行训练,实际上是一个统计的过程。这个统计过程只是就这幅图像而言。然后利用统计结果进行回归,建立一个基本适于该图像的类别确定模型。专题信息提取时,一般是先有一套遥感信息模型,而后根据具体图像的实际情况来不断地修改,实质是对模型参数的调整,最终使模型适用于该影像。遥感信息模型是在现有地面实验基础上提炼出来的地物的反演模型,而地物在卫星图像上的反映并非与地面实测数据一一对应,原因很多,使图像数据具有很大的随机性,这就又涉及到光谱辐射校正的问题。因此,需要把遥感信息理论和实际图幅影像有效地结合在一起来进行专题信息的提取。
2.遥感地质专题信息提取
当今,遥感卫星“群星闪烁”,遥感数据空前丰富,然而,遥感信息被利用的比率却极低。其原因是我们缺少遥感专题信息提取的方法和模型。相对与土地利用/土地覆盖遥感信息提取来说,遥感地质信息提取的难度更大些。概括地说,遥感信息提取的方式主要有3种:目视判读提取、基于分类的信息提取和基于知识发现的遥感信息提取。遥感地质专题信息提取的方式也不外乎这三种。
(1)目视判读提取
早期从遥感影像中提取信息的主要方法是目视判读提取。由于目视判读能综合利用地物的色调或色彩、形状、大小、阴影、纹理、图案、位置和布局等影像特征知识,以及有关地物的专家知识,并结合其他非遥感数据资料进行综合分析和逻辑推理,从而能达到较高的专题信息提取的精度,尤其是在提取具有较强纹理结构特征的地物时更是如此,它是目前业务化生产的一门技术,与非遥感的传统方法相比,具有明显的优势。尽管该方法较费工费时,但由于遥感地质信息计算机自动提取的难度,仍将在遥感地质信息提取中长期存在。
(2)基于分类方法的遥感信息自动提取
在遥感信息自动提取方面,分类方法的研究历史最长久,其核心是对遥感图像的分割,其方法有无监督分类和有监督分类。就无监督分类而言,有 K-MEANS 法、动态聚类型法、模糊聚类法以及人工神经网络法;在有监督分类方面,有最小距离法、最大拟然法、模糊分类法以及人工神经网络法。最大拟然法需要各类型的先验知识及其概率,特别是需要假定各类型的分布属于正态分布,因而它是一种有参数的分类器,在具有先验性概率知识以及各类型满足正态分布的条件下,它具有较好的分类效果,该分类器具有分类速度快的优点。模糊分类是根据模糊数学所构建的一种分类器。它是建立在假设一个像元是由多个类型所组成的基础上,只是各类型的隶属度不同。在对分类器训练时,需要确定训练样本像元中各类型的隶属度,它不需要各类型的先验概率知识,也不要求各类型服从正态分布,它是一种无参数的分类器。但是对训练像元中各类型隶属度的确定比较困难。该方法适用于亚像元信息的提取。人工神经网络分类器是利用人工神经网络技术所构造的分类器,人工神经网络是近几年得到迅速发展的一门非线性科学,它是模拟生物神经网络的人工智能技术,已广泛地用于趋势分析和模式识别以及遥感图像的分类等方面。人工神经网络器不需要各类型的先验性概率知识,也不要求各类型一定要服从正态分布,它是一种无参数的分类器。尽管利用分类器进行分类时所需要的时间很短,但是在对分类器进行训练时,所需要的时间却很长。
就无监督分类而言,其所分的结果,需要专家进行判读和类别的归并,并最终确定其所属的类型。就有监督分类而言,需要选取大量的训练样区,而训练样区的选取不仅费工、费时,训练样区选择的好坏还直接影响分类的效果;同时,分类是对整个图像进行分割,它所要求的是总体的精度最高,这样就不可能完全保证我们所需专题信息的精度一定最高。分类是建立在数理统计基础之上,而没有建立在对遥感信息机理分析的基础上,也没有建立在知识挖掘的基础上,这样就使得它难以实现遥感图像专题信息提取的全自动化。同时,基于光谱特征的分类难以解决异物同谱的问题。在分类中所获取到的知识通常既不可传递,也难以解释。这也是我们对所分结果知其然,而不知其所以然的原因。我们对在任何时候,任何地点的图像,都必须重复选取训练样区的工作。这样,显然就大大限制了遥感信息提取的自动化。为此,基于知识发现的遥感专题信息提取将成为另一个最有前途的方向。
3.基于知识发现的遥感专题信息提取
基于知识发现的遥感专题信息提取是遥感专题信息提取的发展趋势之所在。其基本内容包括知识的发现、应用知识建立提取模型,利用遥感数据和模型提取遥感专题信息。在知识发现方面包括从单期遥感图像上发现有关地物的光谱特征知识、空间结构与形态知识、地物之间的空间关系知识。其中,空间结构与形态知识包括地物的空间纹理知识、形状知识以及地物边缘形状特征知识;从多期遥感图像中,除了可以发现以上知识外,还可以进一步发现地物的动态变化过程知识;从GIS数据库中可以发现各种相关知识。在利用知识建立模型方面,主要是利用所发现的某种知识、某些知识或所有知识建立相应的遥感专题信息提取模型,如图3-8所示。在利用遥感数据和模型提取遥感专题信息时,应从简单到复杂,从单知识、单模型的应用到多知识、多模型的集成应用。从单数据的使用到多数据的综合使用。
4.基于光谱知识的遥感专题信息提取
地物的光谱知识是遥感专题信息提取中最重要的知识。对地物光谱特征的研究,长期以来都得到各国的高度重视。我国对地物光谱开展了深入的研究,并出版了《中国典型地物波谱及其特征分析》《遥感反射光谱测试与应用研究》等书。周成虎、杜云艳根据对水体光谱特征的分析,建立了有效的NOAA AVHRR水体提取模型。陈铭臻根据对水稻和背景的光谱特征分析,建立了水稻种植面积的提取模型(TM4/TM1,TM4/TM3,TM4/TM2)。Helmut Mayer Carsten Steger通过对道路光谱知识的分析,探讨了从遥感图像上提取道路的方法,Jinfei Wang,Paul M.Treitz和Philip J.Howarth探讨了利用梯度方向剖面分析法从SPOT PAN图像中提取新修道路,并将其用于更新城区GIS数据库中的道路网。V.Lacroix,M.Acheroy利用了约束梯度法提取了房屋拐角。
R.M.Haralick,S.Wang,G.Shapiro,J.B.Campbell,探讨了利用一致性标记技术提取河网及其流向。Moller-Jenson提出利用NOAA AVHRR的 CH4<45,CH5<35 建立水体提取模型。Jupp等曾提出利用 TM7波段,通过阈值法可以将水体提取出来。
图3-8 基于知识发现的遥感专题信息提取模型
发现光谱知识的方法有典型采样法、光谱曲线法和光谱剖面线法。下面还以新疆瓦石峡地区的美国陆地卫星遥感影像为例,影像大小为512×512 像元,主要典型地物有裸露岩石、雪、阴影等。为了利用这些地物的光谱知识,首先对这几种典型地物进行了光谱采样,光谱采样结果见图3-9。从中可以发现这几种地物具有明显的光谱差。
我们通过对比可以发现,岩石裸露区、冰雪覆盖区及山体阴影的光谱特征明显不同:
(1)总体上看,岩石裸露区的反射率较高,阴影的反射率较低,雪盖区位于中间岩石裸露区在TM1、TM2、TM3、TM4波段上比雪盖区稍高或相近,但在TM5、TM7波段上远高于雪盖区。
(2)雪盖区在 TM1、TM2、TM3、TM4 波段上较阴影为高,在 TM5、TM7 波段上与阴影相近或稍高。
图3-9 瓦石峡地区典型地物光谱采样曲线
(3)岩石裸露区在TM1~TM7波段上都远高于阴影区。
(4)从谱间关系上看,阴影区的反射率从TM1到TM7有逐渐降低的趋势,即TM1>TM2>TM3>TM4>TM5>TM6>TM7。从谱间关系上看,岩石裸露区在TM4上是峰值,即TM3<TM4,TM4>TM5;雪盖区的谱间关系也很明显,即由TM4到TM5有一个明显的下降趋势。
通过以上波谱分析,分别对裸露岩石、雪、阴影建立基于光谱知识的提取模型:
雪:
1∶25万遥感地质填图方法和技术
阴影:
1∶25万遥感地质填图方法和技术
岩石:
1∶25万遥感地质填图方法和技术
按照上述模型可提取出雪、阴影和裸露岩石。
基于光谱知识的专题信息提取,需要地物与背景之间在光谱上是可分的,与背景之间存在着较少的同谱现象,并且地物内部的光谱最好要一致。当地物内部光谱不一致时,可以借助于地物内部的特征成分光谱进行提取。当地物内部成分的光谱与背景之间存在着较多同谱现象时,得借助于地物的其他知识进行提取。
5.基于地物纹理知识的专题信息提取
当地物组成复杂,且大于传感器的空间分辨率时,就可能遥感到地物的结构和组成。其影像就存在着明显的纹理特征。当存在着有别于背景地物的纹理结构特征时,当只靠基于光谱特征知识的提取难以完全解决专题信息的提取问题时,就必须将地物的光谱知识与纹理知识一起用来提取专题信息。纹理是指灰度值在空间上的变化,它是由一些纹理基元按照不同的空间配置形式所构成的一种图案。纹理基元的空间配置可以是随机的、确定的、概率的和函数的。纹理可分为结构性纹理和非结构性纹理,非结构性纹理又叫随机纹理。在目视判读中,纹理一般用粗细度、平滑性、颗粒性、随机性、方向性、直线性、周期性、重复性等术语来描述和表达。在通过纹理识别地物时,需要将某专题的纹理特征与周围地物的纹理特征进行比较分析。在ERDAS IMAGINE中主要有4种纹理识别的算法:平均欧氏距法(一阶)、方差法(二阶)、斜度(三阶)和峰度(四阶)。它们的计算方法如下:
(1)平均欧氏距法(一阶)
1∶25万遥感地质填图方法和技术
式中:xijλ——多波段图像λ波段(i,j)像元的数字值;
xcλ——活动窗口中心像元的λ波段数字值;
n——窗口中的像元数。
(2)方差法(二阶)
1∶25万遥感地质填图方法和技术
式中:xij——像元(i,j)的数字值;
n——活动窗口的像元数;
M——活动窗口的平均值。
(3)斜度(三阶)
1∶25万遥感地质填图方法和技术
式中:xij——像元(i,j)的数字值;
n——活动窗口的像元数;
M——活动窗口的平均值;
V——方差。
(4)峰度(四阶)
1∶25万遥感地质填图方法和技术
式中:xij——像元(i,j)的数字值;
n——活动窗口的像元数;
M——活动窗口的平均值;
V——方差。
另外,常见的纹理探测方法还有共生矩阵法。
本项目主要利用ERDAS IMAGEINE软件二阶方差法来计算影像的纹理特征。计算时采用的移动窗口,为5×5。从新疆瓦石峡地区TM影像的纹理图中可以发现,岩石裸露区纹理指数(二阶方差)较高,图像中显得较亮,而非岩石裸露区纹理指数较低,图像较暗。采用合适的阈值,提取岩石裸露区,可以发现结果大体符合实际情况。
6.基于地物形状知识的专题信息提取
有时,地物与背景之间,不仅在光谱特征上相同或相近,而且在纹理特征上也比较相似。在这种情况下,就得依据地物的形状知识进行深一步的提取。对于地质岩性来说,不同的岩性常常具有不同的空间特征:
(1)侵入岩
侵入岩一般具有比较规则的平面几何形态,如:圆、椭圆、透镜状、脉状等,多数缺少层理影像特征。出露规模较大的侵入岩在图像上常具有环状、放射状等类型的水系、节理或岩脉群。
(2)沉积岩
平面形态为条状或带状,具有明显的层理影像特征。一组有序分布的沉积岩常构成颜色各异的层状影像特征。
(3)变质岩
变质岩的影像特征一般与原岩组分及变质过程新物质的加入和结构的变化有关。如果它是正变质岩,影像特征类似岩浆岩;如果它是负变质岩,其影像特征则与沉积岩的影像特征相类似。
发现地物的形态知识的方法有基于周长和面积的方法、基于面积的方法以及基于面积和区域长度的方法。
基于周长和面积的方法
形状指数
1∶25万遥感地质填图方法和技术
对于圆形而言,k大于0.25,对于正方形而言,k等于0.25,对于长方形而言,k小于0.25。线形地物如道路、机场和河流,其k值很小。对于非规则物体而言,其形状越复杂,其k越小。
圆度:
1∶25万遥感地质填图方法和技术
紧凑度:
1∶25万遥感地质填图方法和技术
瘦度率:
1∶25万遥感地质填图方法和技术
基于面积的测度
紧凑度指数:
1∶25万遥感地质填图方法和技术
1∶25万遥感地质填图方法和技术
基于面积和区域长度
形状率
1∶25万遥感地质填图方法和技术
椭圆指数
1∶25万遥感地质填图方法和技术
以上所有式中:
A——物体的面积;
AC——最小外切圆面积;
P——地物周长;
L——长轴长度。
形状知识,可用于地物的定位或定性提取。在用于定位定性提取时,首先,增强地物之间的边界,提取出边界;然后,进行形状指数的测定,从而达到定性定位提取。在用于定性提取时,主要是对所提取的专题信息再进一步肯定其属性。
(三)GIS支持下的多源信息综合分析
在遥感地质专题信息提取中,除了利用遥感数据外,一般还要利用大量的相关数据,如地质图件,物、化探数据等等。在对这些数据的利用方面,有两个步骤:第一步,需要挖掘知识;第二步,将这些知识用来将图形数据与遥感影像联系起来,以支持专题信息的提取。这些知识是一些正相关知识和反相关知识。对这两种知识而言都还可以进一步分为确定性知识和概率性知识。
21世纪卫星遥感将以多光谱、多时相、多分辨率、多传感器以及全天候为地学研究提供对地观测数据,促进遥感应用更广泛、更深入。然而,纵观过去的二三十年,地学思维引导着遥感技术的发展方向;而同时遥感应用的水平却滞后于空间遥感技术的发展。突出表现在:卫星发回的遥感数据未能得到充分利用,而信息提取水平的滞后使遥感数据中隐藏着的丰富知识远远没有得到充分的发掘与利用,造成了遥感信息资源的巨大浪费及其应用价值的降低。因此,信息提取的能力与效率将成为未来遥感应用面临的突出问题之一。
出现于20世纪80年代末并在近年来得到迅速发展的数据开采(Data Mining——DM)与知识发现(Knowledge Discovery from Database——KDD)的技术理论是人工智能、机器学习与数据库技术相结合的产物。它区别于简单地从数据库管理系统检索和查询信息,而强调“从数据库中发现隐含的、先前不知道的潜在有用的信息”、“从数据中鉴别出高效模式的非平凡过程。该模式是新的、可能有用的和最终可理解的”,其目的是把大量的原始数据转换成有价值的知识。而这正是目前以及未来卫星遥感信息处理的瓶颈问题。借鉴数据开采与知识发现的理论和技术将有助于解决遥感数据急剧增长与人们对数据处理和理解困难之间的矛盾。
1.空间数据挖掘与知识发现
KDD和DM技术的产生与发展是基于这样一个事实:一方面,数据和数据库急剧膨胀;另一方面,现今数据库的应用仍然停留在查询、检索阶段,数据库中隐藏着的丰富知识远远没有得到充分的发掘和利用。数据库的海量增加与人们对数据库处理和理解困难之间形成了强烈的反差。KDD这个术语首先出现在1989年8月在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上,1991年、1993年和1994年又接着继续举行KDD专题讨论会。随着参加会议人数的增多,从1995年开始,每年都要举办一次KDD国际会议。除了理论研究外,也出现了相当数量的KDD产品和应用系统,并在实际应用中获得了一定的成功。
按照 Fayyad等的定义,KDD 是“从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程”。KDD 的一般过程(图 3-10)包括数据准备(data preparation)、数据挖掘(data mining),以及结果的解释评估(interpretation and evaluation)。
图3-10 KDD过程示意图
数据准备包括数据选取(data selection)、数据预处理(data preprocessing)和数据变换(data transformation)。数据选取的目的是确定发现任务的操作对象,即目标数据(target data),它是根据用户的需要从原始数据库中抽取的一组数据。数据预处理的目的是去除噪声等。当数据挖掘的对象是数据仓库时,一般来说,数据选取和数据预处理已在生成数据仓库时完成。数据变换的主要目的是消减数据维数或降维(dimension reduction),即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。
数据挖掘阶段首先要确定挖掘的任务或目的是什么,考虑决定使用什么样的挖掘算法。同样的任务可以用不同的算法来实现,选择实现算法有两个考虑因素:一是不同的数据有不同的特点,因此需要用与之相关的算法来挖掘;二是用户或实际运行系统的要求,如准确性与可理解性之间的偏好等。
2.数据挖掘与知识发现的主要类型和方法
一般统计数据库的数据挖掘出现得最早,也最为成熟。一般而言,数据挖掘和知识发现可分为如下几种类型(Fayyad,1997):
(1)分类:将数据项映射到一个或若干已定义的类的学习函数。
(2)回归:将数据项映射到实值预报变量的学习函数。
(3)聚类:寻找有限的类别来描述数据集的方法。
(4)概括(或称泛化):寻找描述各数据子集共性的方法。
(5)依赖模式:寻找描述变量间显著依赖关系的模式。
(6)变化和偏离检测:从与以前数据对比中发现显著变化。
目前在数据挖掘和知识发现的研究中出现了大量的新方法及各种方法的结合,其中比较著名的方法有如下几种:
(1)基于决策树(decision tree)分类的ID3和C4.5方法。
(2)用于概括的AQ15和CN2方法。
(3)解决不精确、不确定知识的粗糙集(Rough Set)方法。
(4)大量人工神经网络方法,如经典的反向传播[BP]算法,自组织映射(SOM)和自适应谐振理论(ART)等。
(5)贝叶斯概率网络学习方法。
(6)用于产生关联规则的Apriori的方法。
作为目前国外的热门研究课题之一,数据开采和知识发现既是人工智能学者的研究热点,也是数据库专家的探索对象,其工作涵盖了医学、机器学习、人工智能、数学、市场营销等诸多领域。获得了许多有用的知识。迄今为止,国内从事这方面研究的单位还不多,把KDD和DM技术应用于卫星遥感的信息处理,更是一项崭新的课题。
3.遥感影像中的数据挖掘与知识发现
卫星遥感数据库作为数据库的一种,对于赋存其中的信息的处理与识别,自然可以借鉴一般意义上的DM和KDD技术;而作为一类特殊的数据库——图像数据库,有着区别于一般关系数据库和事务数据库的信息内容,隐含着丰富的时间、光谱和空间信息。因而,就这类库中的知识发现而言,数据开采也应具有特殊的过程和方法。
根据上述DM和 KDD 的技术流程示意图(图 3-11)并考虑到卫星遥感数据特殊性,中科院的何国金等人提出了针对地质应用的卫星遥感数据开采和知识发现的理论与技术框架。在此框架中,数据开采占了极为重要的地位。它包括遥感数据的时相选择、应用预处理、特征分析、信息识别与知识解释。现实生活中,许多遥感应用者忽略了该过程的特殊作用,直接把原始遥感图像的解释结果作为应用的基础(虽然在解译过程中也加入了人的知识),因而获得的知识往往是肤浅的、表面化的、不精确的。遥感数据开采过程只有充分考虑原始数据的波谱、空间和时间特征,才能更好地实现针对遥感应用的有价值的、较精确的、较高水平的知识发现。
图3-11 卫星数据遥感挖掘和知识发现
本文由用户上传,如有侵权请联系删除!转转请注明出处:https://nongye.s666.cn/zz/2_657775999.html