十分钟搞定pandas(入门教程)

  • Post category:Python

“十分钟搞定pandas(入门教程)”是一篇介绍pandas库基础使用的入门教程文章,主要包含以下内容:

1. 安装pandas库

在Python环境下安装pandas库可以使用pip命令:

pip install pandas

2. 导入pandas库

安装完毕后,我们就可以在Python环境中导入pandas库:

import pandas as pd

3. 创建Series和DataFrame

pandas库中最常用的数据对象是Series和DataFrame。

Series是一维数组对象,可以存储多种类型的数据;

DataFrame则是二维表格,可以存储多种类型的数据,每个列可以有不同的数据类型。

可以通过以下代码创建Series和DataFrame:

import pandas as pd
import numpy as np

# 创建Series
s = pd.Series([1,3,5,np.nan,6,8])

# 创建DataFrame
dates = pd.date_range('20200101', periods=6)
df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD'))

4. 查看数据

有了数据对象之后,我们可以查看数据的相关信息。比如,对于DataFrame,可以使用以下方法:

# 查看前几行数据
df.head()

# 查看后几行数据
df.tail()

# 查看索引、列名、数据类型、内存等信息
df.info()

# 查看数据的描述性统计
df.describe()

5. 数据选择和操作

pandas库提供了多种方式来选择和操作数据,例如:

# 使用列名选择列
df['A']

# 使用标签选择行
df.loc['20200102':'20200104', ['A','B']]

# 进行赋值操作
df.loc['20200102', 'B'] = 0

# 使用布尔索引进行过滤
df[df['A']>0]

# 使用isnull()和notnull()函数进行缺失值处理
df.isnull()
df.notnull()

# 使用apply()函数进行操作
df.apply(np.cumsum)

6. 数据统计

通过pandas库提供的统计函数,可以对数据进行统计分析,例如:

# 计算每一列的平均值
df.mean()

# 计算每一行的和
df.sum(axis=1)

# 计算每一列的累积和
df.cumsum()

# 计算每一列的最大值和最小值
df.min()
df.max()

示例说明

下面两个示例通过pandas库操作数据:

示例一

某公司在1月份的销售数据如下,请使用pandas库完成以下任务:

销售人员 销售量 价格
A 100 4.5
B 200 5.0
C 300 4.2
D 150 4.8
  1. 创建DataFrame对象;
  2. 计算总销售量;
  3. 计算平均价格;
  4. 计算销售量最大的销售人员。

代码如下:

import pandas as pd

# 创建DataFrame
data = {'销售人员':['A','B','C','D'],
        '销售量':[100,200,300,150],
        '价格':[4.5,5.0,4.2,4.8]}
df = pd.DataFrame(data)

# 计算总销售量
total_sales = df['销售量'].sum()
print('总销售量:', total_sales)

# 计算平均价格
avg_price = df['价格'].mean()
print('平均价格:', avg_price)

# 计算销售量最大的销售人员
max_sales_person = df.loc[df['销售量'].idxmax(), '销售人员']
print('销售量最大的销售人员:', max_sales_person)

示例二

某地区在2019和2020年的降雨量如下,请使用pandas库完成以下任务:

年份 早季降雨量(mm) 晚季降雨量(mm)
2019 450 800
2020 600 600
  1. 创建DataFrame对象;
  2. 计算每年的总降雨量;
  3. 计算每个季节的平均降雨量。

代码如下:

import pandas as pd

# 创建DataFrame
data = {'年份':[2019,2020],
        '早季降雨量':[450,600],
        '晚季降雨量':[800,600]}
df = pd.DataFrame(data)

# 计算每年的总降雨量
df['总降雨量'] = df['早季降雨量'] + df['晚季降雨量']
print('每年的总降雨量:')
print(df[['年份','总降雨量']])

# 计算每个季节的平均降雨量
df['早季平均降雨量'] = df['早季降雨量'].mean()
df['晚季平均降雨量'] = df['晚季降雨量'].mean()
print('每个季节的平均降雨量:')
print(df[['年份','早季平均降雨量','晚季平均降雨量']])

以上就是“十分钟搞定pandas(入门教程)”的完整攻略,希望对你有所帮助。