Python pandas 是一个流行的数据处理和分析库,其中的核心数据结构之一是 DataFrame。DataFrame 是一个二维的表格结构,其中每列可以有不同的数据类型(整数、浮点数、字符串等),并且可以有行标签和列标签。DataFrame 可以从多种数据源创建,例如 CSV、Excel 文件、数据库操作、Python 字典等。在此,我们介绍一些常见的 DataFrame 操作实现代码。
创建 DataFrame
创建 DataFrame 可以使用不同的方式,例如从 Python 列表或字典等数据源中构建 DataFrame。下面的示例展示了如何使用 Python 字典创建一个简单的 DataFrame。
import pandas as pd
data = {'name': ['John', 'Mario', 'Lena', 'Peter'],
'age': [25, 22, 33, 40],
'sex': ['male', 'male', 'female', 'male']}
df = pd.DataFrame(data)
print(df)
在上面的示例中,我们创建了包含“name”、“age”和“sex”三个列的 DataFrame。DataFrame 中的数据存储在名为“data”的 Python 字典中,然后将“data”转换为 DataFrame。
基本数据操作
列操作
通过 DataFrame 中的列名,可以轻松地选取、修改和删除列。下面的示例演示了如何选取 DataFrame 中的某一列,以及如何添加一列。
# 选取一列
print(df['name'])
# 添加一列
df['department'] = ['IT', 'HR', 'Marketing', 'Finance']
print(df)
行操作
通过 DataFrame 中的行索引,可以轻松地选取、添加、修改和删除行。下面的示例演示了如何选取 DataFrame 中的某一行,以及如何添加一行。
# 选取一行
print(df.loc[1])
# 添加一行
new_data = {'name': 'Anna', 'age': 30, 'sex': 'female', 'department': 'Sales'}
df = df.append(new_data, ignore_index=True)
print(df)
数据查询和过滤
Pandas 提供了多种查询和过滤数据的方法。下面的示例演示了如何选取满足特定条件的 DataFrame 中的数据。
# 选取 age 大于 30 的行
print(df[df['age'] > 30])
# 选取 sex 等于 female 的行
print(df[df['sex'] == 'female'])
# 选取 sex 等于 male 且 department 等于 IT 的行
print(df[(df['sex'] == 'male') & (df['department'] == 'IT')])
以上是基本的 DataFrame 操作方法,Pandas 还提供了更多进阶的数据操作方法,例如数据合并、数据分组、缺失值处理等,可以提高数据处理的效率和高端性。