Pandas實現一列資料分隔為兩列

←手機掃碼閱讀火星人 @ 2020-06-11 , reply:0

分割成一個包含兩個元素列表的列

對於一個已知分隔符的簡單分割（例如，用破折號分割或用空格分割）.str.split() 方法就足夠了。它在字串的列（系列）上執行，並返回列表（系列）。

  >>> import pandas as pd  >>> df = pd.DataFrame({'AB': ['A1-B1', 'A2-B2']})  >>> df      AB  0 A1-B1  1 A2-B2  >>> df['AB_split'] = df['AB'].str.split('-')  >>> df      AB AB_split  0 A1-B1 [A1, B1]  1 A2-B2 [A2, B2]

分割成兩列，每列包含列表的相應元素

下面來看下如何從：分割成一個包含兩個元素列表的列至分割成兩列，每列包含列表的相應元素。

  >>> df['AB'].str[0]    0 A  1 A  Name: AB, dtype: object    >>> df['AB'].str[1]    0 1  1 2  Name: AB, dtype: object

因此可以得到

  >>> df['AB'].str.split('-', 1).str[0]    0 A1  1 A2  Name: AB, dtype: object    >>> df['AB'].str.split('-', 1).str[1]    0 B1  1 B2  Name: AB, dtype: object

可以透過如下程式碼將pandas的一列分成兩列：

  >>> df['A'], df['B'] = df['AB'].str.split('-', 1).str  >>> df      AB AB_split A B  0 A1-B1 [A1, B1] A1 B1  1 A2-B2 [A2, B2] A2 B2

補充知識：pandas某一列中每一行拆分成多行的方法

在處理資料過程中，常會遇到將一條資料拆分成多條，比如一個人的地址資訊中，可能有多條地址，既有家庭地址也有工作地址，還有電話資訊等等類似的情況，實際使用資料的時候又需要分開處理，這個時候就需要將這一條資料進行拆分成多條，以方便使用。

在pandas中如何對DataFrame進行相關操作呢，經查閱相關資料，發現了一個簡單的辦法，

info.drop(['city'], axis=1).join(info['city'].str.split(' ', expand=True).stack().reset_index(level=1, drop=True).rename('city'))

看起來非常之長，分開來看，流程如下：

將需要拆分的資料使用split拆分工具拆分，並使用expand功能拆分成多列

將拆分後的多列資料進行列轉行操作(stack)，合併成一列

將生成的複合索引重新進行reset保留原始的索引,並命名

將上面處理後的DataFrame和原始DataFrame進行join操作，預設使用的是索引進行連線

具體操作如下：

預操作：生成需要使用的DataFrame

  # 用來生成DataFrame的工具  from pydbgen import pydbgen  myDB=pydbgen.pydb()    # 生成一個DataFrame  info = myDB.gen_dataframe(10,['name','phone','city','state'])

結果如下：

	name	phone-number	city	state
0	Hannah Richard	810-859-7815	Irwinville	Louisiana
1	Ronald Berry	591-564-0585	Glen Ellen	Minnesota
2	Caitlin Barron	969-840-8580	Dubois	Oklahoma
3	Felicia Stephens	154-858-1233	Veedersburg	Alaska
4	Shelly Dennis	343-104-9365	Mattapex	Virginia
5	Nicholas Hill	992-239-1954	Moneta	Minnesota
6	Steve Bradshaw	164-081-7811	Ten Broeck	Colorado
7	Gail Johnston	155-259-9514	Wayan	Virginia
8	John Gray	409-892-4716	Darlington	Pennsylvania
9	Katherine Bautista	185-861-1677	McNab	Texas

假如現在我們要對city列進行進行拆分，按照空格拆分，轉換成多行的資料，
第一步：拆分，生成多列

info_city = info['city'].str.split(' ', expand=True)

結果如下：

	0	1
0	Irwinville	None
1	Glen	Ellen
2	Dubois	None
3	Veedersburg	None
4	Mattapex	None
5	Moneta	None
6	Ten	Broeck
7	Wayan	None
8	Darlington	None
9	McNab	None

可以看到已經將原始資料拆分成了2列，對於無法拆分的資料為None

第二步：行轉列

info_city = info_city.stack()

結果如下：


0	0	Irwinville
1	0	Glen
	1	Ellen
2	0	Dubois
3	0	Veedersburg
4	0	Mattapex
5	0	Moneta
6	0	Ten
	1	Broeck
7	0	Wayan
8	0	Darlington
9	0	McNab

其中前面兩列是索引，返回的是一個series，沒有名字的series

第三步：重置索引，並命名（並刪除多於的索引）

info_city = info_city.reset_index(level=1, drop=True)

結果如下：


0	Irwinville
1	Glen
1	Ellen
2	Dubois
3	Veedersburg
4	Mattapex
5	Moneta
6	Ten
6	Broeck
7	Wayan
8	Darlington
9	McNab

第四步：和原始資料合併

info_new = info.drop(['city'], axis=1).join(info_city)

結果如下：

	name	phone-number	state	city
0	Hannah Richard	810-859-7815	Louisiana	Irwinville
1	Ronald Berry	591-564-0585	Minnesota	Glen
1	Ronald Berry	591-564-0585	Minnesota	Ellen
2	Caitlin Barron	969-840-8580	Oklahoma	Dubois
3	Felicia Stephens	154-858-1233	Alaska	Veedersburg
4	Shelly Dennis	343-104-9365	Virginia	Mattapex
5	Nicholas Hill	992-239-1954	Minnesota	Moneta
6	Steve Bradshaw	164-081-7811	Colorado	Ten
6	Steve Bradshaw	164-081-7811	Colorado	Broeck
7	Gail Johnston	155-259-9514	Virginia	Wayan
8	John Gray	409-892-4716	Pennsylvania	Darlington
9	Katherine Bautista	185-861-1677	Texas	McNab

需要特別注意的是，需要使用原始的連線新生成的，因為新生成的是一個series沒有join方法，也可以透過將生成的series透過to_frame方法轉換成DataFrame，這樣就沒有什麼差異了

寫了這麼多，記住下面的就行了：

info.drop([『city'], axis=1).join(info[『city'].str.split(' ', expand=True).stack().reset_index(level=1, drop=True).rename(『city'))

如果原資料中已經是list了，可以將info[『city'].str.split(' ', expand=True)這部分替換成info[『city'].apply(lambda x: pd.Series(x))，就可以達到相同的目的。

Tags: 拆分

[火星人 ] Pandas實現一列資料分隔為兩列已經有261次圍觀

本文地址：http://coctec.com/docs/python/shhow-post-237991.html

Pandas實現一列資料分隔為兩列

熱門文章

最新文章