Pandas提取数据的三种方式

  • Post category:Python

当我们使用Pandas进行数据分析时,我们需要从数据集中提取并筛选所需要的数据。Pandas提供了三种主要的方式来提取数据:索引、选取和过滤。接下来我将对这三种方式进行详细讲解。

索引

Pandas使用行号和标签来索引数据。行号表示数据所在的行数,而标签则是数据frame中每个列的名称。

  1. 按照行号索引

使用iloc[]方法按照行号来索引数据,比如要提取数据frame的第一行,可以使用以下代码:

import pandas as pd

df = pd.read_csv('data.csv')

first_row = df.iloc[0]
  1. 按照标签索引

使用loc[]方法按照行列标签来索引数据,例如要提取数据frame中一列名为“name”的数据,可以使用以下代码:

import pandas as pd

df = pd.read_csv('data.csv')

name_col = df.loc[:, 'name']

选取

选取是指通过对数据frame的每一列进行操作,来选择需要的列。使用方括号并输入所需列的名称即可选取数据。

例如,我们要选取数据frame中的“name”和“age”两列,可以使用以下代码:

import pandas as pd

df = pd.read_csv('data.csv')

selected_cols = df[['name', 'age']]

过滤

过滤是指通过给定条件来筛选数据。比如我们要从数据frame中过滤出年龄大于18岁的数据,可以使用以下代码:

import pandas as pd

df = pd.read_csv('data.csv')

filtered_data = df[df['age'] > 18]

上述代码中,df['age'] > 18返回一个布尔值数组,而df[df['age'] > 18]根据此数组的True/False值来选择数据。只有True的行将被保留,而False的行将被过滤掉。

总结:以上就是关于Pandas提取数据的三种方式的完整攻略,包括索引、选取和过滤。希望能够帮助到你。