===================================
资料同化理论
===================================

  资料同化是一门数学学科，旨在将理论（通常以数字模型的形式）与观察结果进行最佳组合。可能存在许多不同的目标，例如，确定系统的最佳状态估计值，确定数值预测模型的初始条件，使用所观测系统的（例如物理）知识内插稀疏观测数据，根据观测数据训练数值模型参数。根据目标，可以使用不同的解决方法。资料同化与其他形式的机器学习，图像分析和统计方法不同，因为它利用了所分析系统的动态模型。

  资料同化最初是在数值天气预报领域发展的。数值天气预报模型是描述大气动力学行为的方程式，通常被编码到计算机程序中。为了使用这些模型进行预测，需要模型的初始条件与当前大气状态非常相似。简单地将逐点测量值插入数值模型并不能提供令人满意的解决方案。现实世界中的测量结果都包含误差，这归因于仪器的质量以及测量位置的准确度。这些错误可能导致模型不稳定，从而消除了预测中的任何技能。因此，需要更复杂的方法，以便使用所有可用数据初始化模型，同时确保维持数值模型的稳定性。这样的数据通常包括测量值以及在进行测量的同时有效的先前预测。如果以迭代方式应用，则此过程开始将来自过去观察的信息累积到所有后续预测中。

  由于资料同化超出了数值天气预报的范围，因此它最初在地球科学中广受欢迎。实际上，在所有地球科学中被引用最多的出版物之一就是应用资料同化来重建观测到的大气历史。
   
  大气资料同化的目标是在给定当前状态的当前估计值（背景，通常是从数值模型进行6小时的预测）的前提下，确定大气层当前状态的最佳估计值（分析）。这项研究仅涉及微波卫星辐射，可用于推断大气的温度结构（与其他常规辐射和卫星辐射配合使用）。极轨卫星的观测在时间和空间上有些不规则，与数值模型状态相比稀疏，并且具有系统误差（偏差）和随机误差。提供背景信息的预测模型是动态一致的，但是它们也存在偏差，尤其是在平流层中。资料同化的挑战是将信息从分散的位置和观测时间转移到模型网格，同时保留物理，动态和数值上的一致性，这对于始终如一的良好天气预报至关重要。

  常见的数学哲学观点之一是将资料同化视为贝叶斯估计问题。从这个角度来看，分析步骤是贝叶斯定理的应用，整体同化过程是递归贝叶斯估计的一个例子。但是，概率分析通常简化为计算上可行的形式。在通常情况下，可以通过Fokker-Planck方程来精确地实现时间上的概率分布提前，但是对于高维系统来说这是不可行的，因此，可以使用对概率分布的简化表示进行操作的各种近似方法。通常将概率分布假定为高斯分布，以便可以用均值和协方差表示它们，这引起了卡尔曼滤波。

  许多方法仅通过均值表示概率分布，并输入一些预先计算的协方差。一种直接（或顺序）计算方法的示例称为最佳统计插值，或简称为最佳插值（OI）。一种替代方法是迭代解决可解决相同问题的成本函数。这些称为变分方法，例如3D-Var和4D-Var。典型的最小化算法是共轭梯度法或广义最小残差法。 Ensemble Kalman滤波器是一种顺序方法，它使用蒙特卡洛方法通过一组仿真来估计高斯概率分布的均值和协方差。最近，集成方法和变式方法的混合组合变得越来越流行（例如，欧洲中距离天气预报中心（ECMWF）和NOAA国家环境预测中心（NCEP）都将它们用于操作预报） 。


.. figure:: ./../Figures/DA_concept/fig01_da_nwp.png
   :align: center