pandas查找、排序和去重

最编程 2024-01-15 13:23:52

...

import pandas as pd
import numpy as np

#定义DataFrame
dict={'a':[1,2,3],'b':[4,5,6],'c':[7,8,9]}
df=pd.DataFrame(dict,index=['one','two','three'])
print(df)

	a	b	c
one	1	4	7
two	2	5	8
three	3	6	9

1.Series通过索引查找

可用Index ,也可用数字下标

s1=df['b']
print(s1['two'])
print(s1[['two','one']])  # 用数组列出离散的标签，要用[ ]括起来
print(s1['two':'three'])  # 标签切片
print(s1[0:2])

2.DataFrame通过索引查找

(1) 直接通过列索引取列

df['b']
df[['b','c']]  # 用数组列出离散的标签，要用[ ]括起来

(2) .loc 通过标签索引数据

先写行标签，后写列标签
列举多个列，要用数组，用[ ]括起来
列举切片，则无需用[ ]括起来。注意标签切片的右括号是闭合的

df.loc[['two','one']]   #索引多行，行名用数组
df.loc['two':'three']   #索引多行，行名用切片
df.loc[:,['b','a']] #索引某行多列，列名用数组
df.loc[:,'b':'a']   #索引某行多列，列名用切片

(3) .iloc 通过通过标号获取数据

先写行号，再写列号
可用单值，也可用切片，注意：标号切片的右括号是开区间的

df.iloc[1:3,1:3]

3.索引和列之间的转换

(1) 列-->索引

inplace参数可以定义是否覆盖原数据

df.set_index('a', inplace=True)  # inplace=True 会在原变量直接改，没有返回值
df
df1=df.set_index('a', inplace=False)  # inplace=False则有返回值(默认),原变量不变
df1

(2) 索引-->列

索引变成列会排在DataFrame的第一列

df.reset_index(inplace=True) 
df

4.利用索引进行排序

(1) pandas 根据某一列排序

pandas排序的方法有很多，sort_values表示根据某一列排序

pd.sort_values("xxx",inplace=True)

表示pd按照xxx这个字段排序，inplace默认为False,如果该值为False，那么原来的pd顺序没变，只是返回的是排序的
https://blog.****.net/happy5205205/article/details/105124051/

(2) 按照时间排序

先把它转为时间对象
df['time'] = pd.to_datetime(df['time'])
然后再对time这列排序
df.sort_values('time', inplace=True)

5.根据索引进行数据去重

keep='first' or 'last'，可以选择保留第一条或最后一条

df=df[~df.index.duplicated(keep='first')]

上一篇： pandas常用操作详解——排序函数sort_values和sort_index

下一篇：请教如何根据另一DataFrame列对另一个DataFrame进行排序？

pandas查找、排序和去重

1.Series通过索引查找

2.DataFrame通过索引查找

(1) 直接通过列索引取列

(2) .loc 通过标签索引数据

(3) .iloc 通过通过标号获取数据

3.索引和列之间的转换

(1) 列-->索引

(2) 索引-->列

4.利用索引进行排序

(1) pandas 根据某一列排序

(2) 按照时间排序

5.根据索引进行数据去重

Python 图像压缩和去重

PHP 冒泡排序和二分查找示例

二叉查找树、二叉搜索树和二叉排序树算法的分析与实现

堆排序 - 升序和降序_前 K-N 数查找最大的前 K

C# 使用 FirstOrDefault() 查找和首字母排序

Java 常用算法_常用查找和排序算法 - 介绍和代码演示

基于 MapReduce+Pandas 的电影排序和推荐以及数据分析和可视化展示

数据分析 - Pandas 类别的排序和排序