使用Python-cdo库进行气象数据处理

最编程 2024-01-08 15:53:29

...

如果你不喜欢命令行的操作方式，那么你可以尝试使用python-cdo，利用python脚本语言的优势来处理气象数据。命令行的方式有其优势，比如简单易操作，可扩展性更强等，利用CDO的python接口也有其特有的优势，比如：

通过numpy/narray可以进行直接的数据操作
临时文件自动处理
灵活的并行化计算
条件处理操作
扩展新操作符

安装

安装方式非常简单，运行以下命令即可：

pip install cdo
或
conda install python-cdo

操作符

一般情况下导入库时不建议使用如下方式导入的，建议使用 from ... import ... as ... 。为了调用所有操作符，建议按照 In [5] 方式执行赋值语句，以防出现属性调用错误。

查看文件信息

In [4]: from cdo import *

In [5]: cdo = Cdo()

In [6]: cdo.sinfon(input = "wrfout_d02_2016-06-23_06_00_00")
Out[6]: 
['File format : NetCDF2',
 '-1 : Institut Source   Steptype Levels Num    Points Num Dtype : Parameter name',
 '1 : unknown  unknown  instant       1   1     48240   1  F32  : LU_INDEX',
  .....
 '175 : unknown  unknown  instant       1   1         1   7  I32  : SEED2',
 'Grid coordinates :',
 '1 : curvilinear              : points=48240 (240x201)',
 'XLONG : 115.839 to 123.957 degrees_east',
 'XLAT : 30.0914 to 35.6799 degrees_north',
  ........
 '7 : generic                  : points=1',
 'Vertical coordinates :',
 '1 : surface                  : levels=1',
  ........
 '4 : generic                  : levels=4',
 'lev : 1 to 4 by 1 level',
 'Time coordinate :  36 steps',
 'YYYY-MM-DD hh:mm:ss  YYYY-MM-DD hh:mm:ss  YYYY-MM-DD hh:mm:ss  YYYY-MM-DD hh:mm:ss',
 '2016-06-23 06:00:00  2016-06-23 06:10:00  2016-06-23 06:20:00  2016-06-23 06:30:00',
  .....
 '2016-06-23 11:20:00  2016-06-23 11:30:00  2016-06-23 11:40:00  2016-06-23 11:50:00']

查看文件信息的操作符与CDO命令行操作符相同，在python中是以方法的方式调用。

通过 input 参数指定输入文件，如果需要输出文件时，则通过 output 参数指定：

In [8]: cdo.timmean(input = "wrfout_d02_2016-06-23_06_00_00", output = "wrfmean.nc")

性能对比

对比CDO命令行和Python-cdo接口的执行效率：

以下两个命令执行相同的操作：先选择1-5时步的所有变量数据，然后在结果中选择指定的变量。

In [21]: %time os.system("cdo -selname,SCW,SCTOT,SCH,SCS,REFL_10CM -seltimestep,1/5 wrfout_d02_2016-06-23_06_00_00 wrfsub_cdo.nc")
CPU times: user 0 ns, sys: 3.29 ms, total: 3.29 ms
Wall time: 36.9 s
Out[21]: 0

In [22]: %time cdo.selname("SCW,SCTOT,SCH,SCS,REFL_10CM",input = "-seltimestep,1/5 " + "wrfout_d02_2016-06-23_06_00_00", output = "wrfsub_python.nc")
CPU times: user 0 ns, sys: 3.65 ms, total: 3.65 ms
Wall time: 41.4 s
Out[22]: 'wrfsub_python.nc'

In [23]: %time os.system("cdo copy wrfout_d02_2016-06-23_06_00_00 wrfcopy_cdo.nc")
CPU times: user 2.3 ms, sys: 174 µs, total: 2.48 ms
Wall time: 10min 1s
Out[23]: 0

In [24]: %time cdo.copy(input = "wrfout_d02_2016-06-23_06_00_00", output = "wrfcopy_python.nc")
CPU times: user 0 ns, sys: 3.73 ms, total: 3.73 ms
Wall time: 10min 43s
Out[24]: 'wrfcopy_python.nc'

从上述结果中可以看出，CDO命令行的耗时和python接口的耗时差别不大。测试数据大小：19G。如果是对大量数据进行操作的话，可以优先使用命令行方式，效率相对会高一些。

注：未进行完全测试，结果可能存在一定偏差。

参数

在利用 CDO转换数据集格式时，需要指定输出文件格式，比如选择变量或时步时也需要指定操作符的参数。

在使用pyhon接口时如何指定CDO命令行方式的参数呢？

In [25]: %time cdo.copy(input = "wrfout_d02_2016-06-23_06_00_00", output = "wrfcopy.grb", option = "-f grb")
CPU times: user 0 ns, sys: 4.12 ms, total: 4.12 ms
Wall time: 12min 18s
Out[25]: 'wrfcopy.grb'

只需要在调用方法时添加 option 参数即可。

为每个操作符添加参数时，只需要将参数作为方法的第一个参数即可。比如：

In [26]: %time cdo.seltimestep("1/3",input = "wrfout_d02_2016-06-23_06_00_00", output = "wrfsub1.grb", option = "-f grb")
CPU times: user 244 µs, sys: 3.87 ms, total: 4.11 ms
Wall time: 44.9 s
Out[26]: 'wrfsub1.grb'

链式操作

python-cdo中完整的支持类似CDO命令行的链式操作符，执行顺序和CDO命令行操作相同。

In [27]: %time cdo.selname("SCW,SCTOT,SCH,SCS,REFL_10CM",input = "-seltimestep,1/5 " + "wrfout_d02_2016-06-23_06_00_00", output = "wrfsub.grb", option = "-f grb")
CPU times: user 4.58 ms, sys: 349 µs, total: 4.93 ms
Wall time: 37.6 s
Out[27]: 'wrfsub.grb'

通过上述命令可以看出，除了 selname 操作的参数时在方法内单独给出之外，其余操作符(seltimestep)的调用方式和CDO命令行调用方式相同。

相当于：

cdo -selname,SCW,SCTOT,SCH,SCS,REFL_10CM -seltimestep,1/5 wrfout_d02_2016-06-23_06_00_00 wrfsub_cdo.nc

临时文件

CDO命令行的链式操作可以省却中间临时文件的输出，从而节省了不必要的空间存储，python-cdo也提供了临时文件的处理。

当不指定 output 参数时，当前文件夹下是不会生成输出文件的，但是从输出结果可以看出，输出文件存放到了临时文件夹下。

In [28]: %time cdo.selname("SCW,SCTOT,SCH,SCS,REFL_10CM",input = "-seltimestep,1/5 " + "wrfout_d02_2016-06-23_06_00_00")
CPU times: user 3.05 ms, sys: 4.09 ms, total: 7.14 ms
Wall time: 38.2 s
Out[28]: '/tmp/cdoPy_f_c2j0l'

类似临时文件的处理方式，当需要处理大量数据时，可以控制输出文件的输出，从而节省大量的时间（前提是不需要输出文件或是输出文件本身已经存在了）。可以通过以下两种方式控制输出文件的输出：

设置全局属性

cdo.forceoutput = True/False

操作符选项

cdo.selname("SCW", input = "wrfout_d02_2016-06-23_06_00_00", force = False)

多线程处理

python-cdo提供了多线程处理方式，可以处理能并行执行的任务。比如：

from cdo import *
import multiprocessing

def showlevel(arg):
    return cdo.showlevel(input=arg)

cdo       = Cdo()
cdo.debug = True
ifile     = '../wrfsub.nc'
pool      = multiprocessing.Pool(1)
results   = []

for i in range(0,5):
    results.append(pool.apply_async(showlevel, [ifile]))

pool.close()
pool.join()

for res in results:
    print(res.get())

python-cdo最重要的更新之一就是支持 numpy/narray 数组操作。通常有3中方式来获取数据：

文件句柄

使用文件句柄可以非常方便的获取变量，属性，维度等信息。可以使用 returnCdf关键词或 readCdf 方法。比如：

In [50]: t = cdo.seltimestep("1/3", input = "wrfout_d02_2016-06-23_06_00_00", options = "-f nc", returnCdf = True).variables["T"][:]

In [51]: t.shape
Out[51]: (3, 59, 201, 240)

In [46]: ff = cdo.readCdf("wrfout_d02_2016-06-23_06_00_00")

In [47]: t = ff.variables["T"]

In [48]: t.shape
Out[48]: (36, 59, 201, 240)

numpy/narray 对象

当需要读取特定变量时可使用此方式

In [52]: t = cdo.seltimestep("1/3", input = "wrfout_d02_2016-06-23_06_00_00", options = "-f nc", returnArray = "T")

In [53]: t.shape
Out[53]: (3, 59, 201, 240)

掩膜数组

如果目标变量含有缺省值，即有FillValue之类表示缺省值的属性，则会影响返回结果。比如：对海洋区域数据进行掩膜。

oro = cdo.setrtomiss(-10000, 0, input =  cdo.topo( options =  '-f nc'), returnMaArray =  'topo')

setrtomiss 表示将在 -10000, 0 之间的数设置为缺省值。

绘图

能够直接操作 numpy/narray 数据的好处之一就是处理好之后既可以直接进行绘图。当然，CDO也可以编译为支持 Magics++，然后在操作之后进行绘图操作，但是仍没有在python中利用 matplotlib 等绘图库要方便。

由于变量 t 在上面已经获取并且处理了，因此此处直接使用。

In [62]: import matplotlib.pyplot as plt

In [63]: plt.contourf(t[1, 6, :, :])
Out[63]: <matplotlib.contour.QuadContourSet at 0x7fc6832142b0>

In [64]: plt.colorbar()
Out[64]: <matplotlib.colorbar.Colorbar at 0x7fc6831896a0>

In [65]: plt.show()

关于python-cdo中提供的方法的使用方式，可以查看帮助。如果帮助看不明白，可以查看单元测试脚本，单元测试脚本中基本上包含了所有使用方式，比官方文档要更靠谱 [注1]。

注1：https://github.com/Try2Code/cdo-bindings/blob/master/python/test/test_cdo.py

上一篇： VMS：体验语音消息

下一篇：详解Shell脚本中的循环语句：for、while、until循环语句（一、for循环语句）

使用Python-cdo库进行气象数据处理

如何使用 dlib 库进行目标跟踪

使用 Snownlp 库进行 python 中文情感分析

深入理解 GMP：使用GNU多精度库进行高精度计算-4. GMP的优势和应用

介绍 SQL（数据库查询语言）和基本命令 [查看数据库/数据表、创建数据库/数据表、使用数据库/数据表、删除数据库/数据表、如何进行注释

使用 git 命令和 vscode 从零开始从远程代码库中拉取、提交、合并和推送分支，并在项目中进行练习

文本分析--使用 jieba 库进行中文分词和去活字（附案例研究）

如何在 python 中使用 libpcap 库进行数据包捕获和数据处理。

如何使用 MTR 进行 MySQL 数据库可用性测试？