当在Python中进行机器学习时,pandas 是不可或缺的库之一。这是因为 pandas 为数据的清洗、转换和操作提供了强大的工具。本文将详细讲解 pandas 的使用方法。
安装 pandas
在开始使用 pandas 之前需要先安装它。可以使用 pip 安装:
pip install pandas
导入 pandas 库
安装好之后,需要导入 pandas 库:
import pandas as pd
创建 Series
Series 是一维的数组类型,同时可以在其左边添加索引。以下是 Series 的创建方法:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
代码中的 np.nan
代表着缺失值(NaN),上面的代码将创建一个包含缺失值的 Series。
创建 DataFrame
DataFrame 是二维的表格型数据结构。以下是创建 DataFrame 的几种方法。
通过字典创建
data = {'name':['Alice', 'Bob', 'Charlie', 'David'], 'age':[25, 35, 45, 55]}
df = pd.DataFrame(data)
上面的代码将根据字典中的键值对创建一个 DataFrame。其中,字典中的每一对键值对代表着一列数据,而列名就是键,数据就是值。
通过列表创建
data = [['Alice', 25], ['Bob', 35], ['Charlie', 45], ['David', 55]]
df = pd.DataFrame(data, columns=['name', 'age'])
上面的代码会创建一个 DataFrame 对象。其中,data 是一个嵌套列表,每个子列表代表一行数据,columns
则是自定义的列名。
选择数据
在数据处理中,选择数据是一个重要的操作。常用的选择方法有 loc、iloc 和 ix。
使用 loc 选择数据
loc 可以通过行标签和列标签选择数据,如下所示:
df.loc[1] # 选择第二行
df.loc[1,'name'] # 选择第二行的 'name' 列
df.loc[1:3, ['name', 'age']] # 选择第二到四行,以及 'name' 和 'age' 两列
使用 iloc 选择数据
iloc 使用数字索引选择数据,如下所示:
df.iloc[1] # 选择第二行
df.iloc[1, 0] # 选择第二行的第一列
df.iloc[1:3, 0:2] # 选择第二到四行,以及第一和第二列
可以看到 iloc 选择数据的方法与 loc 非常类似。
以上是关于 pandas 的简要介绍和使用方法。希望这篇文章能够帮助大家更好地理解 pandas 的使用和机器学习中的重要性。