写点什么

Pandas read_csv 参数详解

  • 2024-05-09
    江西
  • 本文字数:2507 字

    阅读完需:约 8 分钟

前言

在使用 Pandas 进行数据分析和处理时,read_csv 是一个非常常用的函数,用于从 CSV 文件中读取数据并将其转换成 DataFrame 对象。read_csv 函数具有多个参数,可以根据不同的需求进行灵活的配置。本文将详细介绍 read_csv 函数的各个参数及其用法,帮助大家更好地理解和利用这一功能。

获取更多技术资料,请点击!

常用参数概述

pandas 的 read_csv 函数用于读取 CSV 文件。以下是一些常用参数:


  • filepath_or_buffer: 要读取的文件路径或对象。

  • sep: 字段分隔符,默认为,。

  • delimiter: 字段分隔符,sep 的别名。

  • header: 用作列名的行号,默认为 0(第一行),如果没有列名则设为 None。

  • names: 列名列表,用于结果 DataFrame。

  • index_col: 用作索引的列编号或列名。

  • usecols: 返回的列,可以是列名的列表或由列索引组成的列表。

  • dtype: 字典或列表,指定某些列的数据类型。

  • skiprows: 需要忽略的行数(从文件开头算起),或需要跳过的行号列表。

  • nrows: 需要读取的行数(从文件开头算起)。

  • skipfooter: 文件尾部需要忽略的行数。

  • encoding: 文件编码(如'utf-8','latin-1'等)。

  • parse_dates: 将某些列解析为日期。

  • infer_datetime_format: 如果 True 且 parse_dates 未指定,那么将尝试解析日期。

  • iterator: 如果 True,返回 TextFileReader 对象,用于逐块读取文件。

  • chunksize: 每个块的行数,用于逐块读取文件。

  • compression: 压缩格式,例如 'gzip' 或 'xz'

filepath_or_buffer 要读取的文件路径或对象

filepath_or_buffer: FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]可以接收 3 种类型,文件路径,读取文件的 bytes, 读取文件的 str。


  • 可以接受任何有效的字符串路径。该字符串可以是 URL。有效的 URL 方案包括 http、ftp、s3、gs 和 file。对于文件 URL,需要主机。本地文件可以是:file://localhost/path/to/table.csv

  • 想传入一个路径对象,pandas 接受任何 Path

  • 类文件对象是指具有 read() 方法的对象,例如文件句柄(例如通过内置 open 函数)或 StringIO


示例如下:



# 读取字符串路径import pandasfrom pathlib import Path
# 1.相对路径,或文件绝对路径df1 = pandas.read_csv('data.csv')print(df1)

# 文件路径对象Pathfile_path = Path(__file__).parent.joinpath('data.csv')df2 = pandas.read_csv(file_path)print(df2)
# 读取url地址df3 = pandas.read_csv('http://127.0.0.1:8000/static/data.csv')print(df3)

# 读取文件对象
with open('data.csv', encoding='utf8') as fp: df4 = pandas.read_csv(fp) print(df4)
复制代码

sep: 字段分隔符,默认为,

  • sep 字段分隔符,默认为,

  • delimiter(同 sep,分隔符)


示例如下:


df1 = pandas.read_csv('data.csv', sep=',')print(df1)
df2 = pandas.read_csv('data.csv', delimiter=',')print(df2)
复制代码

header 用作列名的行号

header: 指定哪一行作为列名,默认为 0,即第一行,如果没有列名则设为 None。如下数据,没有header


张三,男,22,123@qq.com李四,男,23,222@qq.com王五,女,24,233@qq.com张六,男,22,123@qq.com

# 读取示例df6 = pandas.read_csv('data2.csv', header=None)print(df6)
复制代码

names 自定义列名

names自定义列名,如果header=None,则可以使用该参数。


df6 = pandas.read_csv(    'data2.csv',    header=None,    names=['姓名', '性别', '年龄', '邮箱'])print(df6)
复制代码

index_col 用作行索引的列编号或列名

index_col参数在使用 pandas 的read_csv函数时用于指定哪一列作为 DataFrame 的索引。如果设置为 None(默认值),CSV 文件中的行索引将用作 DataFrame 的索引。如果设置为某个列的位置(整数)或列名(字符串),则该列将被用作 DataFrame 的索引。


import pandas as pd
# 我们想要将'`email`'列作为DataFrame的索引
df8 = pd.read_csv('data.csv', index_col='email')print(df8)
# 或者,如果我们知道'email'列在第4列的位置,也可以这样指定df9 = pd.read_csv('data.csv', index_col=3)print(df9)
复制代码

usecols 读取指定的列

usecols 读取指定的列,可以是列名或列编号。


import pandas as pd
# 1.指定列的编号df10 = pd.read_csv('data.csv', usecols=[0, 1])print(df10)
# 2.指定列的名称df11 = pd.read_csv('data.csv', usecols=['name', 'sex'])print(df11)
复制代码

skiprows 、nrows 和 skipfooter

  • skiprows: 需要忽略的行数(从文件开头算起),或需要跳过的行号列表。

  • nrows: 需要读取的行数(从文件开头算起)

  • skipfooter: 文件尾部需要忽略的行数。


示例如下:


# skiprpws忽略的行数import pandas as pd
# 跳过前面2行df15 = pd.read_csv('data.csv', skiprows=2)print(df15)
# nrows 需要读取的行数
import pandas as pd
# 读取前面2行df15 = pd.read_csv('data.csv', nrows=2)print(df15)

# 文件尾部需要忽略的行数
import pandas as pd
# 忽略文件尾部3行df15 = pd.read_csv('data.csv', skipfooter=3)print(df15)
复制代码

parse_dates 将某些列解析为日期

示例如下:


name,time,dateBob,21:33:30,2019-10-10Jerry,21:30:15,2019-10-10Tom,21:25:30,2019-10-10Vince,21:20:10,2019-10-10Hank,21:40:15,2019-10-10

import pandas as pd
# 1.指定列的编号df16 = pd.read_csv('data.csv')print(df16)

-------------# 结果如下: name time date0 Bob 21:33:30 2019-10-101 Jerry 21:30:15 2019-10-102 Tom 21:25:30 2019-10-103 Vince 21:20:10 2019-10-104 Hank 21:40:15 2019-10-10
复制代码


默认读取的date日期是字符串类型,使用parse_dates 参数转成datetime类型。


import pandas as pd
df16 = pd.read_csv('ddd.csv')print(df16.to_dict()) # 'date': {0: '2019-10-10', 1: '2019-10-10',

df17 = pd.read_csv('ddd.csv', parse_dates=['date'])print(df17.to_dict()) # 'date': {0: Timestamp('2019-10-10 00:00:00')
复制代码

总结

通过本文的介绍,大家应该对 Pandas 中 read_csv 函数的参数有了更全面的了解。在实际应用中,根据数据的特点和处理需求,灵活使用 read_csv 的各种参数,可以更轻松、高效地进行数据读取和预处理,为数据分析和建模提供更好的基础。

用户头像

社区:ceshiren.com 微信:ceshiren2021 2019-10-23 加入

微信公众号:霍格沃兹测试开发 提供性能测试、自动化测试、测试开发等资料,实时更新一线互联网大厂测试岗位内推需求,共享测试行业动态及资讯,更可零距离接触众多业内大佬。

评论

发布
暂无评论
Pandas read_csv 参数详解_霍格沃兹测试开发学社_InfoQ写作社区