OpenPyXL、XlsxWriter、pyxlsb、xlrd 和 xlwt:它们都是可以用来读写Excel文件的包,在调用pandas的read_excel函数和to_excel函数时,这些包就在背后完成相应的工作。
如果同时安装了OpenPyXL和XlsxWriter,那么pandas默认使用XlsxWriter。如果你想亲自选择pandas所使用的包,则可以在read_excel或to_excel,以及ExcelFile或ExcelWriter的engine参数中指定所选包。
如果要用OpenPyXL而不是XlsxWriter来写文件,则需要执行如下代码:
df.to_excel("filename.xlsx", engine="openpyxl")
df = pd.DataFrame( { "color": ["red", "blue", "yellow", "blue"], "price": [1, 3, 5, 6], } ) df.to_csv("data.csv") # 保存到csv df = pd.read_csv("data.csv", index_col=0) # 加载csv
参数sep指定分隔符,默认是逗号,sep='t'指定分隔符为制表符分隔tab。pd.read_table()默认分隔符是制表符分隔tab。
pd.read_csv('data.csv', header=None) # 没有表头 pd.read_csv('data.csv', names=['列1', '列2', '列3']) # 指定列名 pd.read_csv('data.csv', prefix='c_', header=None) # 如没列名,自动指定一个:前缀加序数 pd.read_csv('data.csv', usecols=[0,2]) # 按列索引读取指定列,['col1', 'col3']按列名称读取指定列 pd.read_csv('data.csv', index_col=2) # 第3列是行索引
import numpy as np pd.read_csv('data.csv', dtype=str) # 所有数据均为此数据类型 pd.read_csv('data.csv', dtype={'col1':str, 'col3':np.float16}) # 指定字段类型
pandas模块读取Excel文件,可能需要安装openpyxl库依赖:pip install openpyxl。
df = pd.DataFrame( { "color": ["red", "blue", "yellow", "blue"], "price": [1, 3, 5, 6], } ) df.to_excel("data.xlsx", index=False) # 保存到excel文件 df = pd.read_excel("data.xlsx") # 加载csv
参数描述na_rep 和inf_rep在默认情况下,np.nan 会被转换为空单元格,而 NumPy 用来表示无穷的 np.inf 会被转换为字符串 inf。利用这两个参数可以修改默认行为freeze_panes通过提供一个元组来冻结前几行和前几列,比如 (2, 1) 会冻结前两行和第一列
参数描述names提供列名称列表na_values在默认情况下,pandas 会将这些值解释为NaN:空单元格、#NA、NA、null、#N/A、N/A、NaN、n/a、-NaN、1.#IND、 nan、 #N/A N/A、 -1.#QNAN、-nan、NULL、-1.#IND、 和1.#QNAN。如果需要往这些值中添加一个或多个值,则可以通 过na_values 来提供keep_default_na如果希望忽略 pandas 默认解释为 NaN 的值,可将参数设置为keep_default_na=Falseconvert_float在默认情况下,Excel 会在内部将所有数字都以浮点型保存,pandas 会将带有无意义 的小数点的数字转换为整数。如果想改变这种行为,则可以将参数设置为convert_ float=False(可能会获得少许性能提升)converters可以为各列提供一个函数来转换其中的值。如果要将某一列中的文本转换为大写,则 可以将参数设置为:converters={"column_name": lambda x: x.upper()}
如果想从旧式的 xls 文件中读取多张工作表,ExcelFile 就会发挥作用。在这种情况下,ExcelFile 可防止pandas 多次读取整个文件,从而获得较快的速度。
with pd.ExcelFile("stores.xls") as f: df1 = pd.read_excel(f, "2019", skiprows=1, usecols="B:F", nrows=2) df2 = pd.read_excel(f, "2020", skiprows=1, usecols="B:F", nrows=2)
也可以通过 ExcelFile 访问所有工作表的名称:
stores = pd.ExcelFile("stores.xlsx") stores.sheet_names
import pandas as pd import numpy as np from sqlalchemy import create_engine, text from config import DB_URI data = np.random.randint(0, 100, size=(5, 3)) df = pd.DataFrame(data, columns=["A", "B", "C"]) conn = create_engine(DB_URI) # 先连接MySQL 保存到MySQL df.to_sql( name="score", # 表名 con=conn, # 数据库连接对象 index=False, # 不保存行索引 if_exists="append", # 如果表存在,则追加数据 ) 从MySQL中加载数据 df = pd.read_sql( sql=text("select * from score"), con=conn.connect(), )
本文作者:a
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!