Python数据分析模块pandas之数据处理

共计 5536 个字符，预计需要花费 14 分钟才能阅读完成。

在了解完 pandas 的两种主要数据结构 Series 序列与DataFrame 数据框，下面就来学习下 pandas 是怎么处理数据的。

处理数据一般分为几个阶段：数据整理与清洗、数据分析与建模、数据可视化，pandas 是处理数据的理想工具。

None 是 Python 中自带的空对象。None 不能参与任何计算，object 类型的运算要比 int 类型的运算慢得多。

np.nan 是浮点类型，能参与到计算中，但计算的结果总是 NaN。可以使用 np.nan*()函数来计算 nan，此时会过滤掉 nan。

在 pandas 中，None 与 np.nan 都视作 np.nan。

找有空的列：df.isnull().any()，any 只要有一个为 True 就为 True，类似 or。

找不为空的列：df.notnull().all()，all 必须全部为 True 才会是 True，类似 and。

找有空的行：df.isnull().any(axis=1)。

找不为空的行：df.notnull().all(axis=1)。

cond = df.isnull().any(axis=1)
print(df[~cond])
# 或者
cond = df.notnull().all(axis=1)
print(df[cond])

cond = df.isnull().any()
print(df.loc[:, ~cond])
# 或者
cond = df.notnull().all()
print(df.loc[:, cond])

df.dropna()默认删除有空的行，删除有空的列使用 df.dropna(axis=1)。也可以选择过滤的方式，默认 how=”any”，how=”all” 必须所有数据都为 nan 才会删除。参数 inplace=True 会修改原数据。

df.fillna(value=100)
df.fillna(method="ffill")  # 向前填充，向后填充是 bfill
df.fillna(method="ffill",axis=1)  # 向左填充，向右填充是 bfill

duplicated()函数用来检测重复行，返回元素为布尔类型的 Series 对象。

duplicated 默认保留重复第一行，keep=’last’ 保留重复最后一行，keep=False 不保留重复行。

df.duplicated(keep='first')
df.duplicated(subset=[" 列名 "])  # subset 参数为列名，对指定列进行去重操作

使用 drop_duplicates()函数删除重复行：df.drop_duplicates(subset=[" 列名 "], keep='last')。

print(df.describe([0.01, 0.5, 0.99]))  # 自定义百分位数
print(df.describe([0.01, 0.5, 0.99]).T)  # 行列转置

Series 唯一值：print(df[0].unique())。

按条件查询：

data = [["Alex", 100, 90], ["Bob", 91, 80], ["Clarke", 82, 88]]
df = pd.DataFrame(data, columns=["a", "b", "c"])
print(df.query("b==100"))  # 找到 b 列 =100 所有行
print(df.query("b in [90,100]"))
n = 100
print(df.query("b ==@n"))  # 使用变量

排序：

print(df.sort_values("b", ascending=False))  # 默认按列名升序排序，ascending=False 降序，axis=1 按行排序
print(df.sort_index(ascending=False))  # 默认按索引升序排序，axis=1 按列索引排序

df = pd.DataFrame([["Alex", 100, 90], ["Bob", 91, 80], ["Clarke", 82, 88]])
df2 = pd.DataFrame([["Dick", 99, 77]])
df3 = pd.concat([df, df2], ignore_index=True)  # 默认上下合并
df4 = pd.concat([df, df2], keys=["a", "b"])  # keys 添加多层索引

data = [["Alex", 100, 90], ["Bob", 91, 80], ["Clarke", 82, 88]]
df = pd.DataFrame(data)
df.drop(1, inplace=True)  # 默认删除行
df.drop(1, axis=1, inplace=True)  # 删除列
df.drop(index=[1, 2])  # 删除多行
df.drop(columns=[1, 2])  # 删除多列

data = [["Alex", 100], ["Bob", 91], ["Clarke", 82]]
df = pd.DataFrame(data, columns=["Name", "Score_1"])
df.insert(1, column="Score_2", value=[90, 80, 88])

data = [["Alex", 100, 90], ["Bob", 91, 80], ["Clarke", 82, 88]]
df = pd.DataFrame(data, columns=["Name", "Score_1", "Score_2"])
del df["Score_1"]  # 使用 del 删除
df.pop("Name")  # 使用 pop()方法删除

外连接，类似并集，显示所有数据：

def make_df(indexs, columns):
    """ 生成 DataFrame"""
    data = [[str(j) + str(i) for j in columns] for i in indexs]
    df = pd.DataFrame(data, index=indexs, columns=columns)
    return df

df1 = make_df([1, 2, 3, 4], list("ABCD"))
df2 = make_df([5, 2, 3, 10], list("BCDE"))
df3 = pd.concat([df1, df2])

内连接，类似交集，只连接匹配的项：df3 = pd.concat([df1, df2], join="inner")。

也可以使用 merge()合并数据，类似 MySQL 中表和表合并。merge 与 concat 的区别在于，merge 需要依据某一共同的行或列来进行合并。使用 merge 合并时，会自动根据两者相同 column 名称的那一列，作为 key 来进行合并，每一列元素的顺序不要求一致。

有多列名称相同，可指定一列作为连接字段：

df1 = make_df([1, 2, 3], list("ABC"))
df2 = make_df([2, 3, 4], list("BCD"))
print(df1.merge(df2, on="C"))

可以配合 suffixes 参数指定冲突列名：

df1 = make_df([1, 2, 3], list("ABC"))
df2 = make_df([2, 3, 4], list("BCD"))
print(df1.merge(df2, on="C", suffixes=["_df1", "_df2"]))

如果没有相同列名，需使用来指定 2 个表中的不同列作为连接字段：

df1 = make_df([1, 2, 3], list("ABC"))
df2 = make_df([2, 3, 4], list("BD"))
print(df1.merge(df2, left_on="B", right_on="B"))

也可以使用行索引作为连接字段：

df1 = make_df([1, 2, 3], list("ABC"))
df2 = make_df([2, 3, 4], list("DE"))
print(df1.merge(df2, left_index=True, right_index=True))

merge 默认是内连接，可以使用 how 参数指定连接方式：

df1 = make_df([1, 2, 3], list("ABC"))
df2 = make_df([2, 3, 4], list("CD"))
print(df1.merge(df2, how="outer"))

左连接：how=”left”，右连接：how=”right”。

使用 replace 函数，对 values 进行替换操作。

import pandas as pd
import numpy as np

data = [{"Name": "Alex", "Age": 12}, {"Name": "Bob", "Age": 16, "Sex": "1"}]
df = pd.DataFrame(data)
df.replace({np.nan: 0}, inplace=True)

map 一般用在 Series 数据结构，不能用于 DataFrame，适合处理某一单独列，在 map()函数中可以使用 lambda。

def fn(sex):
    if sex == "1":
        return " 男 "
    elif sex == "2":
        return " 女 "
    else:
        return ""

data = [{"Name": "Alex", "Age": 12}, {"Name": "Bob", "Age": 16, "Sex": "1"}]
df = pd.DataFrame(data)
df[" 性别 "] = df["Sex"].map(fn)

既支持 Series，也支持 DataFrame。

df["Age"] = df["Age"].apply(lambda x: " 成年 " if x >= 18 else " 未成年 ")

print(df.apply(lambda x: x.max()))  # 对每列操作

print(df.applymap(lambda x: x + 100))  # 对所有 DataFrame 元素操作

既支持 Series，也支持 DataFrame。

print(df[1].transform([np.sqrt, np.exp]))  # 可以执行多项计算
print(df.transform(lambda x: x + 10))  # 处理每一列
print(df.transform(lambda x: x + 10, axis=1))  # 处理每一行

替换索引：

data = [{"Name": "Alex", "Age": 12}, {"Name": "Bob", "Age": 16, "Sex": "1"}]
df = pd.DataFrame(data)
df.rename(index={0: 10}, inplace=True)  # 修改行索引名
df.rename(columns={"Name": " 姓名 "}, inplace=True)  # 修改列索引名

重置索引：df.reset_index(inplace=True)。

设置索引：df.set_index(keys=["Age"], inplace=True)。

data = [["Alex", 100, 90], ["Bob", 91, 80], ["Clarke", 82, 88]]
df = pd.DataFrame(data, index=["one", "two", "three"], columns=["A", "B", "C"])

f1 = df.filter(items=["A", "C"])  # 按名称选择列
f2 = df.filter(regex="e$", axis=0)  # 按正则表达式选择列索引名以 e 结尾，axis= 0 表示对行操作
f3 = df.filter(like="t", axis=0)  # 列索引名中含有 t 的
f4 = df.filter(like="t", axis=0).filter(items="B")  # 连续筛选

使用 take()函数排序，借助 np.random.permutation()函数随机排序。

无放回抽样：

data = [["Alex", 100, 90], ["Bob", 91, 80], ["Clarke", 82, 88]]
df = pd.DataFrame(data, index=["one", "two", "three"], columns=["A", "B", "C"])
print(df.take(np.random.permutation([0, 1, 2])))

有放回抽样：print(df.take(np.random.randint(0, 3, size=6)))。

df = pd.DataFrame(
    {"color": ["red", "red", "blue", "yellow", "blue"],
        "price": [1, 3, 5, 6, 7],
    }
)
df2 = df.groupby("color").sum()  # 先按 color 进行分组，再聚合
print(df2)

分箱操作就是将连续型数据离散化，分为等距分箱和等频分箱。

等距分箱：

data = np.random.randint(0, 100, size=(5, 3))
df = pd.DataFrame(data, columns=["A", "B", "C"])
print(pd.cut(df.A, bins=4))
# bins 指定分箱断点。默认是左开右闭，right=False 左闭右开。参数 labels 指定分箱后分类的标签
print(pd.cut(df.A, bins=[0, 60, 80, 90, 100], right=False, labels=["D", "C", "B", "A"]))

等频分箱：pd.qcut(df.A, q=4, labels=["D", "C", "B", "A"])。

八对麻烦大佬更新下【堆新】的友链站名：八对星星描述：极目星视穹苍无界•足履行者大地有疆链接：https://8dui.com图标：https://cf.8dui.com/logo.webp横标：https://cf.8dui.com/logo-w.webp订阅：https://8dui.com/rss.xml

三毛笔记已添加

DUINEW 已添加贵站，期待贵站友链~博客名称：堆新博客地址：https://duinew.com/博客描述：堆新堆新,引力向新！——堆新（DUINEW）博客头像：https://d.duinew.com/logo.webp横版头像：https://d.duinew.com/logo-w.webp博客订阅：https://duinew.com/rss.xml