pandas学习笔记

pandas简单使用

pandas 数据读取

1
2
3
4
5
6
7
8
9
10
11
12
import pandas
data = pandas.read_csv(path) #打开csv数据
data.dtypes #内含数据类型
data.head(num) #从头显示数据 num显示数据的条数
data.tail(num) #从最后显示数据
data.columns #返回列名
data.shape() #返回数据行列数
data.loc[num] #返回某一条数据 num数据行数索引
data.loc[start:end] #返回多条数数据
data[row_name] #返回某一列 row_name列名 类型为Series
data[[name1,name2]] #返回多列
pandas.isnull(data[row_name]) #返回列中每个值是否为缺失值

数据运算

1
2
3
4
data[row_name].max()			#返回某一列最大值
data[row_name1]*data[row_name2] #两列元素对应相乘
data[row_name]/1000 #列中每个元素都除1000
data[row_name].mean() #求指定列的均值

数据排序

1
2
3
4
5
data.sort_values(row_name,inplace=True,ascending = False)			
#按指定列进行排序 implace是否输出新的DataFrame ascending是否升序
data.pivot_table(index,values,aggfunc) #对两列进行筛选计算 aggfunc默认求均值numpy.mean
data.drapna(axis = 0,subset=[name1,name2]) #去掉列中存在缺失值的行
data.reset_index(drop = True) #重新索引排序 drop是否去掉原来的索引

自定义函数

1
data.apply(func) #自定义函数
1
2
# 设置索引
data.set_index(name,drop=True) #将name列设置为索引 drop是否去掉空值

pandas.to_datetime()

将某列转为时间