python基础篇之pandas常用基本函数汇总

  • Post category:Python

这里是“Python基础篇之Pandas常用基本函数汇总”的详细攻略。

简介

Pandas 是 Python 中一个非常强大的数据分析库,它提供了灵活高效的数据结构,使我们能够快速处理和分析数据集合。Pandas 可以很方便地进行数据的读写、数据的合并和清洗、以及各种统计和分析操作。

这篇攻略主要介绍 Pandas 中一些常用的基本函数,包括:

  • 数据读取与存储函数
  • 数据查看与处理函数
  • 数据合并与清理函数
  • 数据统计与分析函数

数据读取与存储函数

读取数据

Pandas 提供了多种读取数据的方式,包括读取 CSV 文件、Excel 文件、SQL 数据库等。具体可参考 Pandas官方文档

下面是读取 CSV 文件的示例代码:

import pandas as pd

df = pd.read_csv('data.csv')

这里假设当前目录下已有名为 data.csv 的 CSV 文件。

存储数据

Pandas 同样提供了多种存储数据的方式,可以将数据保存为 CSV 文件、Excel 文件、SQL 数据库等格式。具体可参考 Pandas官方文档

下面是将数据保存为 CSV 文件的示例代码:

import pandas as pd

df = pd.read_csv('data.csv')
df.to_csv('new_data.csv', index=False)

这里假设当前目录下已有名为 data.csv 的 CSV 文件,并将处理后的数据保存为 new_data.csv 文件。

数据查看与处理函数

查看数据

Pandas 中有多种查看数据的方式,可以查看数据的头部(即前几行)、尾部(即后几行)、随机样本等。具体可参考 Pandas官方文档

下面是查看数据头部的示例代码:

import pandas as pd

df = pd.read_csv('data.csv')
print(df.head())

处理数据

Pandas 中有多种处理数据的方式,包括选取子集、筛选数据、转换数据等。具体可参考 Pandas官方文档

下面是选取特定列和筛选数据的示例代码:

import pandas as pd

df = pd.read_csv('data.csv')
df_subset = df[['column1', 'column2']]
df_filtered = df[df['column1']>10]

这里假设数据集中有名为 column1column2 的两列数据,筛选出所有 column1>10 的数据。

数据合并与清理函数

合并数据

当我们有多个数据源时,可以使用 Pandas 提供的函数来将它们合并为一个数据集。具体可参考 Pandas官方文档

下面是将两个数据集按行合并的示例代码:

import pandas as pd

df1 = pd.read_csv('data1.csv')
df2 = pd.read_csv('data2.csv')
df_merged = pd.concat([df1, df2], axis=0)

这里假设有两个数据集 data1.csvdata2.csv,将它们按行合并为一个数据集。

清理数据

数据清理是数据分析的重要环节,可以使用 Pandas 提供的函数来删除缺失值、重复值等。具体可参考 Pandas官方文档Pandas官方文档

下面是删除缺失值和重复值的示例代码:

import pandas as pd

df = pd.read_csv('data.csv')
df_cleaned = df.dropna()  # 删除缺失值
df_deduplicated = df_cleaned.drop_duplicates()  # 删除重复值

这里假设数据集中有缺失值和重复值,使用 dropna()drop_duplicates() 函数进行清理。

数据统计与分析函数

统计数据

Pandas 提供了丰富多样的统计函数来帮助我们进行数据统计和分析。具体可参考 Pandas官方文档Pandas官方文档

下面是计算均值、方差和分组统计的示例代码:

import pandas as pd

df = pd.read_csv('data.csv')
mean_value = df['column1'].mean()
var_value = df['column1'].var()
grouped_data = df.groupby('column2').mean()

这里假设数据集中有名为 column1column2 的两列数据,计算 column1 列的均值和方差,并按 column2 进行分组统计。

分析数据

除了统计函数外,Pandas 还提供了多种分析函数来帮助我们深入挖掘数据的内在规律。具体可参考 Pandas官方文档Pandas官方文档

下面是绘制线形图和时间序列分析的示例代码:

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('data.csv')
df.plot(kind='line', x='column1', y='column2', title='Line Chart')
plt.show()

df['date'] = pd.to_datetime(df['date'])
df.set_index('date', inplace=True)
df.resample('M')['column1'].mean().plot(kind='bar', title='Monthly Mean')
plt.show()

这里假设数据集中有名为 column1column2 的两列数据和一个日期列 date,使用 plot() 函数绘制线形图并使用 resample() 函数进行时间序列分析。

总结

以上就是“Python基础篇之Pandas常用基本函数汇总”的攻略。Pandas 是 Python 数据分析领域中非常重要的工具,掌握其常用函数和技巧可以帮助我们更高效地进行数据分析、挖掘和可视化。希望本篇攻略对大家有所帮助。