搞定排序！pandas的sort_index和sort_values详解

最编程 2024-01-15 13:30:45

...

import pandas as pd
df = pd.DataFrame(……)
说明：以下“df”为DataFrame对象。

1. df. sort_values()

作用：既可以根据列数据，也可根据行数据排序。
注意：必须指定by参数，即必须指定哪几行或哪几列；无法根据index名和columns名排序（由.sort_index()执行）

调用方式

DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last')
axis：{0 or ‘index’, 1 or ‘columns’}, default 0，默认按照列排序，即纵向排序；如果为1，则是横向排序。
by：str or list of str；如果axis=0，那么by="列名"；如果axis=1，那么by="行名"。
ascending：布尔型，True则升序，如果by=['列名1','列名2']，则该参数可以是[True, False]，即第一字段升序，第二个降序。
inplace：布尔型，是否用排序后的数据框替换现有的数据框。
kind：排序方法，{‘quicksort’, ‘mergesort’, ‘heapsort’}, default ‘quicksort’。似乎不用太关心。
na_position：{‘first’, ‘last’}, default ‘last’，默认缺失值排在最后面。

例：

原数据

df = pd.DataFrame({'b':[1,2,3,2],'a':[4,3,2,1],'c':[1,3,8,2]},index=[2,0,1,3]) 
b   a   c
2   1   4   1
0   2   3   3
1   3   2   8
3   2   1   2

1.按b列升序排序

df.sort_values(by='b') #等同于df.sort_values(by='b',axis=0)
b   a   c
2   1   4   1
0   2   3   3
3   2   1   2
1   3   2   8

2.先按b列降序，再按a列升序排序

df.sort_values(by=['b','a'],axis=0,ascending=[False,True]) 
b   a   c
1   3   2   8
3   2   1   2
0   2   3   3
2   1   4   1

3.按行3升序排列

df.sort_values(by=3,axis=1) #必须指定axis=1
a   b   c
2   4   1   1
0   3   2   3
1   2   3   8
3   1   2   2

4.按行3升序，行0降排列

df.sort_values(by=[3,0],axis=1,ascending=[True,False])
a   c   b
2   4   1   1
0   3   3   2
1   2   8   3
3   1   2   2

注意：指定多列（多行）排序时，先按排在前面的列（行）排序，如果内部有相同数据，再对相同数据内部用下一个列（行）排序，以此类推。如何内部无重复数据，则后续排列不执行。即首先满足排在前面的参数的排序，再排后面参数

2. df. sort_index()

作用：默认根据行标签对所有行排序，或根据列标签对所有列排序，或根据指定某列或某几列对行排序。
注意：df. sort_index()可以完成和df. sort_values()完全相同的功能，但python更推荐用只用df. sort_index()对“根据行标签”和“根据列标签”排序，其他排序方式用df.sort_values()。

调用方式

sort_index(axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True, by=None)
axis：0按照行名排序；1按照列名排序
level：默认None，否则按照给定的level顺序排列---貌似并不是，文档
ascending：默认True升序排列；False降序排列
inplace：默认False，否则排序之后的数据直接替换原来的数据框
kind：排序方法，{‘quicksort’, ‘mergesort’, ‘heapsort’}, default ‘quicksort’。似乎不用太关心。
na_position：缺失值默认排在最后{"first","last"}
by：按照某一列或几列数据进行排序，但是by参数貌似不建议使用

例：

源数据

import pandas as pd  
df = pd.DataFrame({'b':[1,2,2,3],'a':[4,3,2,1],'c':[1,3,8,2]},index=[2,0,1,3]) 
b   a   c
2   1   4   1
0   2   3   3
1   3   2   8
3   2   1   2

1.默认按“行标签”升序排列（推荐）

df.sort_index() #默认按“行标签”升序排序，或df.sort_index(axis=0, ascending=True)
b   a   c
0   2   3   3
1   3   2   8
2   1   4   1
3   2   1   2

2.按“列标签”升序排列（推荐）

df.sort_index(axis=1) #按“列标签”升序排序
a   b   c
2   4   1   1
0   3   2   3
1   2   3   8
3   1   2   2

上一篇：如何为DataFrame设置自定义排序方法？

下一篇：重新排列Pandas数据的简单方法

搞定排序！pandas的sort_index和sort_values详解

1. df. sort_values()

调用方式

2. df. sort_index()

搞定排序和排名！pandas的sort_index, sort_values和rank功能详解

搞定Pandas排序、分组和组内排序的步骤解析

搞定排序！pandas的sort_index和sort_values详解

搞定Pandas数据排序：sort_index和sort_values的妙用！——从索引排序到按值排序

pandas常用操作详解——排序函数sort_values和sort_index

搞定排序和排名！用Pandas的Series、DataFrame和groupby功能

搞定pandas排序：Series和DataFrame的排序技巧

搞定排序！pandas系列之Series和DataFrame的排序技巧

搞定排序和统计！pandas的实用技巧

理解pandas中的排序和排名：sort_index, sort_values与rank函数的作用与使用