Python数据分析模块pandas之数据加载

186次阅读
没有评论

共计 2515 个字符,预计需要花费 7 分钟才能阅读完成。

OpenPyXL、XlsxWriter、pyxlsb、xlrd 和 xlwt:它们都是可以用来读写 Excel 文件的包,在调用 pandas 的 read_excel 函数和 to_excel 函数时,这些包就在背后完成相应的工作。

如果同时安装了 OpenPyXL 和 XlsxWriter,那么 pandas 默认使用 XlsxWriter。如果你想亲自选择 pandas 所使用的包,则可以在 read_excel 或 to_excel,以及 ExcelFile 或 ExcelWriter 的 engine 参数中指定所选包。

如果要用 OpenPyXL 而不是 XlsxWriter 来写文件,则需要执行如下代码:

df.to_excel("filename.xlsx", engine="openpyxl")

文本文件

df = pd.DataFrame(
    {"color": ["red", "blue", "yellow", "blue"],
        "price": [1, 3, 5, 6],
    }
)
df.to_csv("data.csv")  # 保存到 csv
df = pd.read_csv("data.csv", index_col=0)  # 加载 csv

参数 sep 指定分隔符,默认是逗号,sep=’t’ 指定分隔符为制表符分隔 tab。pd.read_table() 默认分隔符是制表符分隔 tab。

列、索引、名称

pd.read_csv('data.csv', header=None)  # 没有表头
pd.read_csv('data.csv', names=['列 1', '列 2', '列 3'])  # 指定列名
pd.read_csv('data.csv', prefix='c_', header=None)  # 如没列名,自动指定一个:前缀加序数
pd.read_csv('data.csv', usecols=[0,2])  # 按列索引读取指定列,['col1', 'col3'] 按列名称读取指定列
pd.read_csv('data.csv', index_col=2)  # 第 3 列是行索引 

数据类型

import numpy as np
pd.read_csv('data.csv', dtype=str)  # 所有数据均为此数据类型
pd.read_csv('data.csv', dtype={'col1':str, 'col3':np.float16})  # 指定字段类型 

Excel 文件

pandas 模块读取 Excel 文件,可能需要安装 openpyxl 库依赖:pip install openpyxl

to_excel()

df = pd.DataFrame(
    {"color": ["red", "blue", "yellow", "blue"],
        "price": [1, 3, 5, 6],
    }
)
df.to_excel("data.xlsx", index=False)  # 保存到 excel 文件
df = pd.read_excel("data.xlsx")  # 加载 csv
参数 描述
na_rep 和 inf_rep 在默认情况下,np.nan 会被转换为空单元格,而 NumPy 用来表示无穷的 np.inf 会被转换为字符串 inf。利用这两个参数可以修改默认行为
freeze_panes 通过提供一个元组来冻结前几行和前几列,比如 (2, 1) 会冻结前两行和第一列

read_excel()

参数 描述
names 提供列名称列表
na_values 在默认情况下,pandas 会将这些值解释为 NaN:空单元格、#NA、NA、null、#N/A、N/A、NaN、n/a、-NaN、1.#IND、nan、#N/A N/A、-1.#QNAN、-nan、NULL、-1.#IND、和 1.#QNAN。如果需要往这些值中添加一个或多个值,则可以通 过 na_values 来提供
keep_default_na 如果希望忽略 pandas 默认解释为 NaN 的值,可将参数设置为 keep_default_na=False
convert_float 在默认情况下,Excel 会在内部将所有数字都以浮点型保存,pandas 会将带有无意义 的小数点的数字转换为整数。如果想改变这种行为,则可以将参数设置为 convert_ float=False(可能会获得少许性能提升)
converters 可以为各列提供一个函数来转换其中的值。如果要将某一列中的文本转换为大写,则 可以将参数设置为:converters={“column_name”: lambda x: x.upper()}

ExcelFile 类

如果想从旧式的 xls 文件中读取多张工作表,ExcelFile 就会发挥作用。在这种情况下,ExcelFile 可防止 pandas 多次读取整个文件,从而获得较快的速度。

with pd.ExcelFile("stores.xls") as f:
    df1 = pd.read_excel(f, "2019", skiprows=1, usecols="B:F", nrows=2)
    df2 = pd.read_excel(f, "2020", skiprows=1, usecols="B:F", nrows=2)

也可以通过 ExcelFile 访问所有工作表的名称:

stores = pd.ExcelFile("stores.xlsx")
stores.sheet_names

MySQL 数据库

import pandas as pd
import numpy as np
from sqlalchemy import create_engine, text
from config import DB_URI

data = np.random.randint(0, 100, size=(5, 3))
df = pd.DataFrame(data, columns=["A", "B", "C"])

conn = create_engine(DB_URI)  # 先连接 MySQL

# 保存到 MySQL
df.to_sql(
    name="score",  # 表名
    con=conn,  # 数据库连接对象
    index=False,  # 不保存行索引
    if_exists="append",  # 如果表存在,则追加数据
)

# 从 MySQL 中加载数据
df = pd.read_sql(sql=text("select * from score"),
    con=conn.connect(),)

正文完
 0
阿伯手记
版权声明:本站原创文章,由 阿伯手记 于2023-08-04发表,共计2515字。
转载说明:本站原创内容,除特殊说明外,均基于 CC BY-NC-SA 4.0 协议发布,转载须注明出处与链接。
评论(没有评论)
验证码

阿伯手记

阿伯手记
阿伯手记
喜欢编程,头发渐稀;成长路上,宝藏满地
文章数
766
评论数
204
阅读量
398775
今日一言
-「
热门文章
职场救急!AI请假话术生成器:1秒定制高通过率理由

职场救急!AI请假话术生成器:1秒定制高通过率理由

超级借口 不好开口?借口交给我!智能生成工作请假、上学请假、饭局爽约、约会拒绝、邀约推辞、万能借口等各种借口理...
夸克网盘快传助手提高非VIP下载速度

夸克网盘快传助手提高非VIP下载速度

夸克网盘限速这个大家都知道,不开会员差不多限速在几百 K。那有没有办法在合法合规途径加速下载夸克网盘呢?这里推...
国内已部署DeepSeek模型第三方列表 免费满血版联网搜索

国内已部署DeepSeek模型第三方列表 免费满血版联网搜索

本文收集了目前国内已部署 DeepSeek 模型的第三方列表,个个都是免费不限次数的满血版 DeepSeek,...
巴别英语:用美剧和TED演讲轻松提升英语听力与口语

巴别英语:用美剧和TED演讲轻松提升英语听力与口语

还在为枯燥的英语学习而烦恼吗?巴别英语通过创新的美剧学习模式,让英语学习变得生动有趣。平台提供海量美剧和 TE...
TVAPP:开源电视盒子资源库,一键打造家庭影院

TVAPP:开源电视盒子资源库,一键打造家庭影院

导语 TVAPP 是一个专为 Android TV 电视盒子用户打造的开源影音资源库,集成了影视、直播、游戏等...
2025年12月 每日精选

2025年12月 每日精选

关于每日精选栏目 发现一些不错的资源,点击 这里 快速投稿。 12 月 26 日 .ax 顶级域 目前全球唯一...
Chinese Name Generator 在线中文姓名生成器

Chinese Name Generator 在线中文姓名生成器

Chinese Name Generator 是一款在线中文姓名生成器,可在几秒内生成符合个人需求的中文名字。...
最新评论
15220202929 15220202929 怎么用
八对 八对 麻烦大佬更新下【堆新】的友链站名:八对星星描述:极目星视穹苍无界•足履行者大地有疆链接:https://8dui.com图标:https://cf.8dui.com/logo.webp横标:https://cf.8dui.com/logo-w.webp订阅:https://8dui.com/rss.xml
三毛笔记 三毛笔记 已添加
DUINEW DUINEW 已添加贵站,期待贵站友链~博客名称:堆新博客地址:https://duinew.com/博客描述:堆新堆新,引力向新!——堆新(DUINEW)博客头像:https://d.duinew.com/logo.webp横版头像:https://d.duinew.com/logo-w.webp博客订阅:https://duinew.com/rss.xml
hedp hedp 没看懂
bingo bingo 直接生成就可以啦,也可以添加一些选项
满心 满心 申请更新下友联信息,原名:满心记,现名:周天记原域名:qq.mba,现域名:zhoutian.com描述:我在人间混日子
开业吉日 开业吉日 没看明白这个怎么用
开业吉日 开业吉日 beddystories 这个网站太赞了,收藏
热评文章
夸克网盘快传助手提高非VIP下载速度

夸克网盘快传助手提高非VIP下载速度

夸克网盘限速这个大家都知道,不开会员差不多限速在几百 K。那有没有办法在合法合规途径加速下载夸克网盘呢?这里推...
国内已部署DeepSeek模型第三方列表 免费满血版联网搜索

国内已部署DeepSeek模型第三方列表 免费满血版联网搜索

本文收集了目前国内已部署 DeepSeek 模型的第三方列表,个个都是免费不限次数的满血版 DeepSeek,...
清华大学官方免费DeepSeek教程

清华大学官方免费DeepSeek教程

AI 领域近期最引人注目的焦点当属 DeepSeek,这款由中国创新企业深度求索研发的人工智能工具,正以开放源...
Short-Link 免费开源短网址程序,基于Fastify、Vercel和Supabase构建

Short-Link 免费开源短网址程序,基于Fastify、Vercel和Supabase构建

Short-Link 是一款基于 Fastify、Vercel 和 Supabase 构建的 URL 缩短服务...
Chinese Name Generator 在线中文姓名生成器

Chinese Name Generator 在线中文姓名生成器

Chinese Name Generator 是一款在线中文姓名生成器,可在几秒内生成符合个人需求的中文名字。...
BeddyStories 完全免费儿童睡前故事库,让孩子随时随地入睡更轻松

BeddyStories 完全免费儿童睡前故事库,让孩子随时随地入睡更轻松

BeddyStories 是一个致力于为儿童提供优质睡前故事的在线平台,用户可以在这里找到来自世界各地的经典故...
WebRTC Screen Mirror:基于浏览器免费开源投屏神器,可实现低延迟、跨平台屏幕共享

WebRTC Screen Mirror:基于浏览器免费开源投屏神器,可实现低延迟、跨平台屏幕共享

WebRTC Screen Mirror 是一款基于 WebRTC 技术的在线屏幕共享工具,它利用浏览器内置的...