pandas

Python軟體庫

計算機編程中,pandas是用於數據操縱分析Python軟件庫。它建造在NumPy基礎上,並為操縱數值表格時間序列,提供了數據結構和運算操作。它是在三條款BSD許可證下發行的自由軟件[2]。它的名字衍生自術語「面板數據」(panel data),這是計量經濟學的術語,即包括了對同一個體在多個時期內的觀測數據集[3]。它的名字還可解釋為對短語「Python data analysis」的玩笑[4]

pandas
原作者Wes McKinney英語Wes McKinney
開發者社區
首次發布2008年1月11日,​16年前​(2008-01-11
當前版本2.2.3[1]在維基數據編輯(2024年9月20日,2個月前)
源代碼庫 編輯維基數據鏈接
編程語言Python, Cython, C
操作系統跨平台
類型數據分析
許可協議三條款BSD許可證
網站pandas.pydata.org

歷史

編輯

2008年,原作者Wes McKinney英語Wes McKinney開始在AQR資本管理公司製作pandas,用來滿足在財務數據上進行定量分析英語Quantitative analysis (finance)時,對高性能、靈活工具的需要。2009年,他在離開AQR之前,說服管理者允許他將這個軟件庫開放源代碼。下面是其開發過程的時間線[5]

  • 2008年,pandas開發開始。
  • 2009年,pandas開源。
  • 2012年,另一個AQR雇員Chang She加入了這個項目,並成為這個軟件庫的第二個主要貢獻者。第一版《Python for Data Analysis》發布。
  • 2015年,pandas簽約為NumFOCUS的一個財務贊助項目,NumFOCUS是美國的501(c)(3)非營利公益組織
  • 2018年,舉行了第一次面對面的「核心開發者衝刺」。
  • 2022年,第三版《Python for Data Analysis》公開版在線發行[6]

數據模型

編輯

pandas的序列Series)是一維加標籤數據結構,它能夠持有任何數據類型,如整數、字符串、浮點數和Python對象等,標籤在集體上稱為索引(index)。序列表現得非常類似於NumPyndarray數據結構,並且是大多數NumPy函數的有效實際參數。

pandas提供了類似於R語言中data.frame對象的數據幀(DataFrame),它是二維加標籤數據結構,其諸縱列潛在的可能具有不同的類型;數據幀就像是電子表格SQL,或者是序列對象的字典[7],這種格局也叫做數組之結構英語AoS_and_SoA(SoA)。pandas允許各種數據操縱運算操作,比如選擇[8]、歸併[9]和重製形狀[10],還有數據清洗數據加工英語data wrangling特徵。

主要特徵

編輯

pandas提供了快速而高效的數據幀對象,用於憑藉其集成的索引進行數據操縱。它的主要特徵有:

  • 易於將在其他的Python和NumPy數據結構中,參差不齊或不同索引的數據,轉換成數據幀對象。
  • 大小可變性,可以在數據幀和更高維對象中插入或刪除縱列
  • 自動和顯式的「數據對齊」,標籤和數據之間的聯繫是固有的,但是可以顯式的控制二元運算的匹配和廣播行為[11]。兩個序列對象按標籤自動對齊,兩個數據幀對象自動對齊於縱列標籤和索引(即橫行標籤)二者上,二元運算的結果對象具有雙方的縱列標籤和橫行標籤的併集;數據幀與序列對象之間的默認行為,是序列的索引自動對齊於數據幀的縱列標籤,從而逐橫行廣播[12]
  • 易於處理缺失數據,它被表示為用於浮點數NaN(即NumPy的nan)、用於日期時間的NaT或跨數據類型的NA[13]
  • 智能的對大數據集的基於標籤的分片英語Array slicing,多重索引和其他花樣索引,依據布爾值向量的子集化英語Subsetting
  • 直觀的數據集的歸併和連接
  • 強大而靈活的分組英語Group by (SQL)groupby)功能,用來在數據集上進行分離-應用-合併(split-apply-combine)運算,它可用於數據聚合英語Aggregate function變換英語Data transformation (computing)二者。
  • 靈活的數據集的重製形狀(reshape)和樞軸匯總
  • 可以有層級標籤,從而在繪圖時每個刻度可能有多重標籤。
  • 健壯的I/O工具,用於從CSV和其他平面文件JSONParquet英語Apache ParquetSQL查詢Excel文件裝載數據,並以極快的HDF5格式保存/裝載數據。[14]
  • 特定於時間序列的功能,例如日期範圍生成和頻率轉換,移動窗口統計,日期移位英語Shift operator滯後英語Lag operator

pandas經過了高度的性能優化,關鍵代碼路徑用CythonC語言寫成。pandas可以利用PyArrow來擴展功能並增進各種API的性能[15]。pandas的缺省繪圖後端是matplotlib,還可以擴展上其他第三方繪圖英語Plot (graphics)後端[16],比如Plotly Express[17]進程內英語Embedded databaseSQL OLAP列式數據庫DuckDB,可以在pandas數據幀上執行SQL[18]

示例

編輯

在下面的梗概示例中,展示針對數據幀的縱列橫行的基本運算:

>>> import pandas as pd
>>> import numpy as np
>>> import matplotlib.pyplot as plt
>>> 
>>> data = {
...     'variable': ['A'] * 3 + ['B'] * 3 + ['C'] * 3 + ['D'] * 3,
...     'date': pd.to_datetime(['2023-01-01', '2023-01-02', '2023-01-03'] * 4),
...     'value': [x + 0.1 for x in range(12)]
... }
>>> 
>>> df = pd.DataFrame(data)
>>> type(df['value']) == pd.Series
True
>>>
>>> df['value1'] = df['value'] + 0.1
>>> df
   variable       date  value  value1
0         A 2023-01-01    0.1     0.2
1         A 2023-01-02    1.1     1.2
2         A 2023-01-03    2.1     2.2
3         B 2023-01-01    3.1     3.2
4         B 2023-01-02    4.1     4.2
5         B 2023-01-03    5.1     5.2
6         C 2023-01-01    6.1     6.2
7         C 2023-01-02    7.1     7.2
8         C 2023-01-03    8.1     8.2
9         D 2023-01-01    9.1     9.2
10        D 2023-01-02   10.1    10.2
11        D 2023-01-03   11.1    11.2
>>> 
>>> df.index
RangeIndex(start=0, stop=12, step=1)
>>> 
>>> df.columns
Index(['variable', 'date', 'value', 'value1'], dtype='object')
>>> 
>>> df.loc[[1, 2], ['value', 'value1']] 
   value  value1
1    1.1     1.2
2    2.1     2.2
>>> 
>>> [df.columns.get_loc(x) for x in ['value', 'value1']]
[2, 3]
>>> 
>>> df.iloc[[1, 2], [2, 3]] 
   value  value1
1    1.1     1.2
2    2.1     2.2
>>> 
>>> df[(df['value']/2 > 1) & (df['value1'] < 3)]
  variable       date  value  value1
2        A 2023-01-03    2.1     2.2
>>> 
>>> df.query('value/2 > 1 & value1 < 3')
  variable       date  value  value1
2        A 2023-01-03    2.1     2.2
>>>

數據幀中的數據經常存儲為兩種格式堆疊格式或記錄格式。在堆棧格式中,針對每個主題(subject)在適用情況下有多個橫行,故而也稱為「長」格式。在記錄格式中,針對每個主題典型地有一個橫行,故而也稱為「寬」格式。在這個例子中,如果要對每個唯一的變量('A', 'B', 'C', 'D')進行時間序列運算,更好的表示形式為:諸縱列都對應唯一的變量(即對應不同的觀測地點或觀測者),而日期索引('date')標識出每個(不可細分的)個體觀測。為此使用pivot(),將數據幀從堆疊格式重製形狀為記錄格式:

>>> df.drop([0, 4, 8]).pivot(index='date', columns='variable')
           value                 value1                
variable       A    B    C     D      A    B    C     D
date                                                   
2023-01-01   NaN  3.1  6.1   9.1    NaN  3.2  6.2   9.2
2023-01-02   1.1  NaN  7.1  10.1    1.2  NaN  7.2  10.2
2023-01-03   2.1  5.1  NaN  11.1    2.2  5.2  NaN  11.2
>>>

這裡給pivot()的輸入數據幀的諸縱列中,除了指定用作indexcolumns的縱列('date''variable'),仍有多個值縱列('value', 'value1');這裡沒有通過指定values參數來選取其中之一,故而結果數據幀的諸縱列被納入層級式索引(即多重索引MultiIndex),其最頂層指示出各自的值縱列(即依據觀測的不同而進行頂層分組)。

使用concat()merge(),對數據幀進行串接英語Set operations (SQL)歸併運算:

>>> df1 = df.drop(columns='value').rename(columns={'value1': 'value'})
>>> df1 = pd.concat([df.drop(columns='value1'), df1], ignore_index=True)
>>> df1.shape
(24, 3)
>>> 
>>> data1 = [
...     ('A', pd.Timestamp('2023-01-01'), 0.3),
...     ('A', pd.Timestamp('2023-01-02'), 1.3)
... ]
>>> 
>>> rows = pd.DataFrame(data1, columns=['variable', 'date', 'value'])
>>> pd.concat([df1, rows], ignore_index=True).tail(3)
   variable       date  value
23        D 2023-01-03   11.2
24        A 2023-01-01    0.3
25        A 2023-01-02    1.3
>>> 
>>> right = pd.DataFrame(data1[0:1], columns=['variable', 'date', 'value1'])
>>> pd.merge(df1, right, on=['variable', 'date'], how='inner')
  variable       date  value  value1
0        A 2023-01-01    0.1     0.3
1        A 2023-01-01    0.2     0.3
>>>

使用groupby()agg(),對數據幀進行分組英語Group by (SQL)聚合英語Aggregate function運算:

>>> df2 = df1.groupby(['date', 'variable']).agg({'value': 'sum'})
>>> df2
                     value
date       variable       
2023-01-01 A           0.3
           B           6.3
           C          12.3
           D          18.3
2023-01-02 A           2.3
           B           8.3
           C          14.3
           D          20.3
2023-01-03 A           4.3
           B          10.3
           C          16.3
           D          22.3
>>> 
>>> df2.shape
(12, 1)
>>> 
>>> df2.index
MultiIndex([('2023-01-01', 'A'),
            ('2023-01-01', 'B'),
            ('2023-01-01', 'C'),
            ('2023-01-01', 'D'),
            ('2023-01-02', 'A'),
            ('2023-01-02', 'B'),
            ('2023-01-02', 'C'),
            ('2023-01-02', 'D'),
            ('2023-01-03', 'A'),
            ('2023-01-03', 'B'),
            ('2023-01-03', 'C'),
            ('2023-01-03', 'D')],
           names=['date', 'variable'])
>>> 
>>> df2.columns
Index(['value'], dtype='object')
>>> 
>>> df2.loc[('2023-01-02', 'A')]
value    2.3
Name: (2023-01-02 00:00:00, A), dtype: float64
>>> 
>>> df2.loc['2023-01-02']
          value
variable       
A           2.3
B           8.3
C          14.3
D          20.3
>>> 
>>> df2.xs('A', level='variable')
            value
date             
2023-01-01    0.3
2023-01-02    2.3
2023-01-03    4.3
>>>

使用pivot_table(),對數據幀進行樞軸匯總運算:

>>> df3 = df1.pivot_table(index='date', columns='variable', aggfunc='sum')
>>> df3
           value                  
variable       A     B     C     D
date                              
2023-01-01   0.3   6.3  12.3  18.3
2023-01-02   2.3   8.3  14.3  20.3
2023-01-03   4.3  10.3  16.3  22.3
>>> 
>>> df3.shape
(3, 4)
>>> 
>>> df3.to_numpy()
array([[ 0.3,  6.3, 12.3, 18.3],
       [ 2.3,  8.3, 14.3, 20.3],
       [ 4.3, 10.3, 16.3, 22.3]])
>>> 
>>> df3.index
DatetimeIndex(['2023-01-01', '2023-01-02', '2023-01-03'], dtype='datetime64[ns]', name='date', freq=None)
>>> 
>>> df3.columns
MultiIndex([('value', 'A'),
            ('value', 'B'),
            ('value', 'C'),
            ('value', 'D')],
           names=[None, 'variable'])
>>> 
>>> df1.pivot_table(index='date', columns='variable', values='value', aggfunc='sum').columns
Index(['A', 'B', 'C', 'D'], dtype='object', name='variable')
>>> 
>>> df3['value'].columns
Index(['A', 'B', 'C', 'D'], dtype='object', name='variable')
>>> 
>>> df3[('value', 'A')]
date
2023-01-01    0.3
2023-01-02    2.3
2023-01-03    4.3
Name: (value, A), dtype: float64
>>>
 
例子代碼生成的條形圖。

matplotlib為數據幀繪製條形圖

>>> ax = df3.plot.bar()
>>> h, l = ax.get_legend_handles_labels()
>>> ax.legend(h, df3.columns.get_level_values(1), title=None, loc='upper left')
<matplotlib.legend.Legend object at 0x7fdd1cff96d0>
>>> ax.set_xticklabels([x.strftime('%Y-%m-%d') for x in df3.index], rotation=0)
[Text(0, 0, '2023-01-01'), Text(1, 0, '2023-01-02'), Text(2, 0, '2023-01-03')]
>>> ax.get_xaxis().get_label().set_visible(False)
>>> ax.grid(axis='y', linestyle=':')
>>> ax.set_axisbelow(True)
>>> for i, m in enumerate(ax.containers):
...     for j, n in enumerate(m.get_children()):
...         n.set_x(j - 0.8*(0.5 - i/df3.columns.size))
...         n.set_width(0.8/df3.columns.size)          
...     ax.bar_label(m, fontsize='small')
... 
[Text(0, 0, '0.3'), Text(0, 0, '2.3'), Text(0, 0, '4.3')]
[Text(0, 0, '6.3'), Text(0, 0, '8.3'), Text(0, 0, '10.3')]
[Text(0, 0, '12.3'), Text(0, 0, '14.3'), Text(0, 0, '16.3')]
[Text(0, 0, '18.3'), Text(0, 0, '20.3'), Text(0, 0, '22.3')]
>>> plt.show()
>>>

導出和導入CSV文件:

>>> df3.to_csv('dftest.csv', float_format='%.1f')
>>> 
>>> df4 = pd.read_csv('dftest.csv', header=[0, 1], index_col=0)
>>> df4.shape
(3, 4)

這裡的標頭(header)指定用作縱列名字的橫行,而索引列(index_col)指定用作索引(index)即橫行標籤的縱列。

使用util-linux工具組成員column來查看導出的CSV文件:

$ cat dftest.csv | column -s, -o, -t 
          ,value,value,value,value
variable  ,A    ,B    ,C    ,D
date      ,     ,     ,     ,
2023-01-01,0.3  ,6.3  ,12.3 ,18.3
2023-01-02,2.3  ,8.3  ,14.3 ,20.3
2023-01-03,4.3  ,10.3 ,16.3 ,22.3

導出和導入JSON文件:

>>> df3.to_json('dftest.json', orient='index', date_format='iso', date_unit='s')
>>> 
>>> df4 = pd.read_json('dftest.json', orient='index')
>>> df4.shape
(3, 4)
>>> 
>>> df4.columns
Index(['('value', 'A')', '('value', 'B')', '('value', 'C')', '('value', 'D')'], dtype='object')
>>> 
>>> df4.columns = pd.MultiIndex.from_tuples([eval(x) for x in df4.columns])
>>> df4.index.name = df3.index.name
>>> df4.columns.name = df3.columns.name

這裡指定了方向(orient)為索引('index'),即採用橫行為主英語Row- and column-major order次序;這裡指定了日期時間格式為ISO 8601標準格式,並且時間單位

使用jq語言實現jq來查看導出的JSON文件:

$ cat dftest.json | jq
{
  "2023-01-01T00:00:00": {
    "('value', 'A')": 0.3,
    "('value', 'B')": 6.3,
    "('value', 'C')": 12.3,
    "('value', 'D')": 18.3
  },
  "2023-01-02T00:00:00": {
    "('value', 'A')": 2.3,
    "('value', 'B')": 8.3,
    "('value', 'C')": 14.3,
    "('value', 'D')": 20.3
  },
  "2023-01-03T00:00:00": {
    "('value', 'A')": 4.3,
    "('value', 'B')": 10.3,
    "('value', 'C')": 16.3,
    "('value', 'D')": 22.3
  }
}

導出和導入HDF5文件基於了PyTables[19]

>>> df3.to_hdf('dftest.h5', key='df3', mode='w')
>>> 
>>> df4 = pd.read_hdf('dftest.h5', key='df3')
>>> df4.shape
(3, 4)

這裡通過key)參數,指定了與數據幀相對應的在HDF5文件中的群組(Group),對它採用了缺省的固定('fixed')存儲格式,而文件打開模態'w'是為「寫」(write)即「新建」。

使用hdf5-tools工具組成員h5ls來查看導出的HDF5文件:

$ h5ls -r -d dftest.h5
/                        Group
/df3                     Group
/df3/axis0_label0        Dataset {4}
    Data:
         0, 0, 0, 0
/df3/axis0_label1        Dataset {4}
    Data:
         0, 1, 2, 3
/df3/axis0_level0        Dataset {1}
    Data:
         "value"
/df3/axis0_level1        Dataset {4}
    Data:
         "A", "B", "C", "D"
/df3/axis1               Dataset {3}
    Data:
         1672531200000000000, 1672617600000000000, 1672704000000000000
/df3/block0_items_label0 Dataset {4}
    Data:
         0, 0, 0, 0
/df3/block0_items_label1 Dataset {4}
    Data:
         0, 1, 2, 3
/df3/block0_items_level0 Dataset {1}
    Data:
         "value"
/df3/block0_items_level1 Dataset {4}
    Data:
         "A", "B", "C", "D"
/df3/block0_values       Dataset {3, 4}
    Data:
         0.3, 6.3, 12.3, 18.3, 2.3, 8.3, 14.3, 20.3, 4.3, 10.3, 16.3, 22.3

這裡的HDF5文件中的日期時間表示,是以納秒單位UNIX時間紀元英語Epoch (computing)時間戳。這種存儲格式保存了數據幀的兩個[20]和所有的塊[21]。由於這裡只有一個塊,這個塊的items的內容同於axis0,而導出前面的數據幀df之時,它的四個縱列會整合(consolidate)為三個塊,其items併集同於axis0

保存HDF5文件還可採用表格('table')格式,HDF5文件中這種存儲格式的群組,可以直接在其上進行查詢和刪除:

>>> df3.to_hdf('dftest.h5', key='df4', format='table', mode='a')
>>> 
>>> pd.read_hdf('dftest.h5', key='df4', where='index > 20230101', columns=[('value', 'A'), ('value', 'C')])
           value      
variable       A     C
date                  
2023-01-02   2.3  14.3
2023-01-03   4.3  16.3

這裡的文件打開模態'a'是為「附加」(append)。

查看變更後的HDF5文件:

$ h5ls dftest.h5
df3                      Group
df4                      Group
$ h5ls -r dftest.h5/df4
/_i_table                Group
/_i_table/index          Group
/_i_table/index/abounds  Dataset {0/Inf}
/_i_table/index/bounds   Dataset {0/Inf, 127}
/_i_table/index/indices  Dataset {0/Inf, 131072}
/_i_table/index/indicesLR Dataset {131072}
/_i_table/index/mbounds  Dataset {0/Inf}
/_i_table/index/mranges  Dataset {0/Inf}
/_i_table/index/ranges   Dataset {0/Inf, 2}
/_i_table/index/sorted   Dataset {0/Inf, 131072}
/_i_table/index/sortedLR Dataset {131201}
/_i_table/index/zbounds  Dataset {0/Inf}
/table                   Dataset {3/Inf}
$ h5ls -d dftest.h5/df4/table
table                    Dataset {3/Inf}
    Data:
         {1672531200000000000, [0.3,6.3,12.3,18.3]},
         {1672617600000000000, [2.3,8.3,14.3,20.3]},
         {1672704000000000000, [4.3,10.3,16.3,22.3]}

這裡的_i_table/index群組存儲了PyTables的tables.index模塊所存取的內容[22]

導出和導入netCDF文件可以藉助xarray,它依賴於pandas,它通過netcdf4-python支持導入導出netCDF-4格式數據[23],通過SciPy支持其他版本netCDF格式。xarray能夠在自身的數據陣列(DataArray)與pandas的序列之間,在自身的數據集(Dataset)與pandas的數據幀之間,進行相互轉換[24]

>>> df3.stack().shape
(12, 1)
>>> 
>>> import xarray as xr
>>> df3.stack().to_xarray().to_netcdf('dftest.nc')
>>> 
>>> df4 = xr.open_dataset('dftest.nc').to_dataframe().unstack()
>>> df4.shape
(3, 4)

使用netcdf-bin工具組成員ncdump來查看導出的netCDF文件:

$ ncdump dftest.nc
netcdf dftest {
dimensions:
	date = 3 ;
	variable = 4 ;
variables:
	int64 date(date) ;
		date:units = "days since 2023-01-01 00:00:00" ;
		date:calendar = "proleptic_gregorian" ;
	string variable(variable) ;
	double value(date, variable) ;
		value:_FillValue = NaN ;
data:

 date = 0, 1, 2 ;

 variable = "A", "B", "C", "D" ;

 value =
  0.3, 6.3, 12.3, 18.3,
  2.3, 8.3, 14.3, 20.3,
  4.3, 10.3, 16.3, 22.3 ;
}
$ ncdump -k dftest.nc
netCDF-4
$ h5ls -r -d dftest.nc
/                        Group
/date                    Dataset {3}
    Data:
         0, 1, 2
/value                   Dataset {3, 4}
    Data:
         0.3, 6.3, 12.3, 18.3, 2.3, 8.3, 14.3, 20.3, 4.3, 10.3, 16.3, 22.3
/variable                Dataset {4}
    Data:
         "A", "B", "C", "D"

xarray的日期時間表示遵循了氣候和預報元數據約定英語Climate and Forecast Metadata Conventions[25],這裡的時間單位為距離某個指定的開始日期時間的日數曆法前推格里高利曆ncdump的輸出採用了netCDF的「公用數據語言」(CDL)[26],它所稱謂的變量,代表相同類型的值的多維陣列,變量聲明指定了變量的數據類型、名字和以維度名字列表描述的形狀。這裡有三個變量:value是數據變量,datevariable坐標變量,而變量聲明double value(date, variable)中,轉換得來的維度名字同於坐標變量名字。

參見

編輯

引用

編輯
  1. ^ 1.0 1.1 Release 2.2.3. 2024年9月20日 [2024年9月22日]. 
  2. ^ License – Package overview – pandas 1.0.0 documentation. pandas. 28 January 2020 [30 January 2020]. (原始內容存檔於2012-02-14). 
  3. ^ Wes McKinney. pandas: a Foundational Python Library for Data Analysis and Statistics (PDF). 2011 [2 August 2018]. (原始內容 (PDF)存檔於2015-05-13). 
  4. ^ McKinney, Wes. Python for Data Analysis, Second Edition. O'Reilly Media. 2017: 13. ISBN 9781491957660. 
  5. ^ About pandas — History of development — Timeline. [2023-09-30]. (原始內容存檔於2023-10-10). 
  6. ^ Python for Data Analysis, 3E. [2023-10-06]. (原始內容存檔於2023-11-07). 
  7. ^ DataFrame. [2022-09-01]. (原始內容存檔於2022-09-01). 
  8. ^ Indexing and selecting data. [2020-09-12]. (原始內容存檔於2020-09-15). 
  9. ^ Merge, join, concatenate and compare. [2020-09-12]. (原始內容存檔於2020-09-15). 
  10. ^ Reshaping and pivot tables. [2020-09-12]. (原始內容存檔於2020-09-15). 
  11. ^ Essential basic functionality — Matching / broadcasting behavior. [2023-12-22]. (原始內容存檔於2024-04-21). 
  12. ^ Intro to data structures — Data alignment and arithmetic. [2023-12-22]. (原始內容存檔於2022-09-01). 
  13. ^ Working with missing data. [2023-12-22]. (原始內容存檔於2024-05-16). 
  14. ^ IO tools (text, CSV, HDF5, …). [2020-09-12]. (原始內容存檔於2020-09-15). 
  15. ^ McKinney, Wes. Apache Arrow and the "10 Things I Hate About pandas". wesmckinney.com. 21 September 2017 [21 December 2023]. (原始內容存檔於2024-05-25) (英語). 
  16. ^ Python tools for data visualization — High-level tools. [2023-09-28]. (原始內容存檔於2023-09-28). 
  17. ^ Pandas Plotting Backend in Python. 
  18. ^ DuckDB Guides — SQL on Pandas. [2023-09-29]. (原始內容存檔於2023-10-03). 
  19. ^ PyTables: hierarchical datasets in Python. [2023-09-28]. (原始內容存檔於2023-08-24). 
  20. ^ What does axis in Pandas mean?. [2023-12-25]. (原始內容存檔於2023-12-25). 
  21. ^ Internal Structure of Pandas DataFrames. [2023-12-25]. (原始內容存檔於2023-12-25). 
  22. ^ Source code for tables.index. [2023-12-25]. (原始內容存檔於2023-12-25). 
  23. ^ netcdf4-python: Python/numpy interface to the netCDF C library. [2023-10-07]. (原始內容存檔於2023-10-12). 
  24. ^ xarray User Guide - Working with pandas. [2022-09-04]. (原始內容存檔於2022-09-04). 
  25. ^ NetCDF Climate and Forecast (CF) Metadata Conventions — Time Coordinate. [2023-10-09]. (原始內容存檔於2023-10-12). 
    xarray User Guide — Weather and climate data. [2023-10-09]. (原始內容存檔於2023-10-12). 
  26. ^ Documentation for Common Data Language. [2023-12-26]. (原始內容存檔於2024-02-06). 

延伸閱讀

編輯

外部連結

編輯