歡迎您光臨本站 註冊首頁

Pandas對DataFrame單列/多列進行運算(map, apply, transform, agg)

←手機掃碼閱讀     火星人 @ 2020-06-15 , reply:0

1.單列運算

在Pandas中,DataFrame的一列就是一個Series, 可以通過map來對一列進行操作:

  df['col2'] = df['col1'].map(lambda x: x**2)

 

其中lambda函數中的x代表當前元素。可以使用另外的函數來代替lambda函數,例如:

  define square(x):     return (x ** 2)      df['col2'] = df['col1'].map(square)

 

2.多列運算

 apply()會將待處理的對象拆分成多個片段,然後對各片段調用傳入的函數,最後嘗試將各片段組合到一起。

要對DataFrame的多個列同時進行運算,可以使用apply,例如col3 = col1 + 2 * col2:

  df['col3'] = df.apply(lambda x: x['col1'] + 2 * x['col2'], axis=1)

 

其中x帶表當前行,可以通過下標進行索引。
 

示例2
 

  In [44]: f = lambda x : x.max()-x.min()    In [45]: df.apply(f)  Out[45]:  data1  5.042275  data2  1.967290  dtype: float64    In [46]: df.apply(f,axis=1)  Out[46]:  0  2.810074  1  1.009774  2  0.537183  3  0.813714  4  1.750022  dtype: float64

 

applymap()
 

用DataFrame的applymap方法,可以將函數應用到元素級的數據上。

  In [47]: f = lambda x : x+1    In [48]: df.applymap(f)  Out[48]:     data1   data2  0 -1.332263 1.477812  1 0.284755 1.294528  2 0.066644 0.603827  3 1.757402 2.571117  4 3.710012 1.959990

 

Series也有一個元素級函數應用的方法map

  In [49]: df['data1']  Out[49]:  0  -2.332263  1  -0.715245  2  -0.933356  3  0.757402  4  2.710012  Name: data1, dtype: float64    In [50]: df['data1'].map(f)  Out[50]:  0  -1.332263  1  0.284755  2  0.066644  3  1.757402  4  3.710012  Name: data1, dtype: float64

 

3.分組運算

可以結合groupby與transform來方便地實現類似SQL中的聚合運算的操作:

  df['col3'] = df.groupby('col1')['col2'].transform(lambda x: (x.sum() - x) / x.count())

 

在transform函數中x.sum()與x.count()與SQL類似,計算的是當前group中的和與數量,還可以將transform的結果作為一個一個映射來使用, 例如:

  sumcount = df.groupby('col1')['col2'].transform(lambda x: x.sum() + x.count())   df['col1'].map(sumcount)

 

對col1進行一個map,得到對應的col2的運算值。

4.聚合函數

結合groupby與agg實現SQL中的分組聚合運算操作,需要使用相應的聚合函數:

  df['col2'] = df.groupby('col1').agg({'col1':{'col1_mean': mean, 'col1_sum‘': sum}, 'col2': {'col2_count': count}})

 

上述代碼生成了col1_mean, col1_sum與col2_count列。
 

示例2
 

  In [52]: df.agg(['mean','sum'])  Out[52]:       data1   data2  mean -0.102690 0.581455  sum -0.513449 2.907274

 

函數說明
count分組中非Nan值的數量
sum非Nan值的和
mean非Nan值的平均值
median非Nan值的算術中間數
std,var標準差、方差
min,max非Nan值的最小值和最大值
prob非Nan值的積
first,last第一個和最後一個非Nan值

         


[火星人 ] Pandas對DataFrame單列/多列進行運算(map, apply, transform, agg)已經有329次圍觀

http://coctec.com/docs/python/shhow-post-238618.html