【表格数据】-读取CSV

栏目:云苍穹知识作者:金蝶来源:金蝶云社区发布:2024-09-23浏览:1

【表格数据】-读取CSV

1 功能说明

读取CSV文件中的数据,并将读取到的内容进行返回。

注:组件使用的是pandas库的read_csv()方法,返回的是一个DataFrame数据集。

2 基本使用说明

2.1. 点击“文件路径”参数后的文件图标,选择需要读取的CSV文件:

2.2. 组件返回值即csv文件的内容,其类型为DataFrame数据集:

3 参数配置说明

“文件路径”参数:填写读取的CSV文件的路径,输入为字符串;也可点击右侧的文件夹图标进行选择。

“返回值”:返回读取到的CSV文件内容,其数据类型为Dataframe的数据集;可传入变量中保存以供后续组件调用,也可以直接传入其他组件中。

“sep”参数:填写文件的分隔符,输入为字符串,默认为','

注: CSV文件是以纯文本形式存储的表格数据,由任意数目的记录组成,记录间以某种换行符分隔开,最常见的就是逗号或制表符。

“delimiter”参数:备选分隔符,输入字符串,默认为None,如果指定该参数,则sep参数失效。

“delim_whitespace ”参数:指定空格是否作为分隔符使用,等效于设定sep='\s+';默认为False,即不设置空格为分隔符,如果这个参数设定为Ture,那么“delimiter ”参数失效。

“header”参数:指定行作为表头,默认为'infer',csv表格第一行作为表头;没有表头则可设置为None,也可输入整型数字或整型数字组成的列表。

1. 默认为'infer',设置数据第一行为表头:


2. 输入整型数字,对应表格内行的下标(从0开始),设置指定行为表头,指定行之前的数据不读取:

3. 输入整型数字的列表,指定列表内元素对应的行为表头,也就是说每一列有多个列名,且介于表头行中间的行数据被忽略不读取:

“Apikeys”参数:用以设置结果表格的列名,默认为None,不设置列名;传入类似数组的有序集合,如列表、字符串以及元组等,从最后列开始,数据内的元素倒序依次作为对应列的列名。

注:该数据内的元素默认出现重复时,即不同列设置同样的列名时,因为“mangle_dupe_cols”参数默认为True,会自动修改重复的列名(添加后缀信息),并附加一条提示信息。

“index_col”参数:指定列为行索引,默认为None,即不设置行索引;

1. 输入列的整型数字下标或列名的字符串,指定该列为索引列:

2.输入列名或列下标为元素组成的序列(如列表、元组等),指定序列元素所对应的列作行索引,这样每行便有多个索引。 例如,输入[0,'类型'],设置第一列和“类型”列为索引:

“usecols”参数:设置获取表格的指定列,返回指定列组成的DataFrame数据集。

1. 默认为None,获取所有列,即整个表格:

2. 输入列名或列下标为元素组成的可迭代序列(如列表、元组等),获取序列元素对应表格中的列:

注:序列内的元素需统一,或均为列名,或均为列下标。

“squeeze”参数:如果文件只包含一列,则返回一个Series类型的数据。

1. 默认为False,文件只包含一列的情况下返回值依旧为Dataframe类型数据;

2. 设置为True,返回一个Series类型的数据。

“prefix”参数:在没有列名(header=None)时,给列下标组成的列名添加前缀。

1. 默认为None,不添加前缀

2. 输入字符串,在列下标前添加前缀作为列名:

“mangle_dupe_cols ”参数:出现重复的列名时,自动给重复的列名添加后缀,将相同的列名【...X...X...】修改为【...X...X.n...】,默认为True,且不支持False:

注:设置为False,会抛出异常。

“dtype ”参数:设置列的数据类型;输入列名为key,数据类型为value的字典,如{'时长':int},设置“时长”列为整型:

“engine ”参数:设置使用的分析引擎语言,默认为'python',也可以使用'C',C引擎快但是Python引擎功能更加完备。

“converters ”参数:可以在读取的时候对列数据进行变换; 例如{"风险": lambda x: int(x) + 100}是对“风险”列的数值加100的操作:

自然也是可以对列进行修改数据类型之类的操作。

“skipinitialspace ”参数:设置是否忽略分隔符后的空格,默认为False,不忽略,True即忽略。

“skiprows ”参数:设置需要跳过忽略的行数。

1. 默认为None,不跳过任何行。

2. 若输入为整型数字,便跳过多少行(从文件起始行开始);

3. 或输入需要跳过的行数号(文件第一行从0开始)组成的有序序列,如列表、元组:

“skipfooter ”参数:从文件尾部开始跳过忽略。

默认为0,忽略 0 行;输入整型数字,忽略该整数行数据:

c引擎不支持。

“nrows ”参数:设置读取数据的行数(不包括表头)。

1. 默认为None,读取所有行;

2. 或输入整型数字,读取该整数行数据:

“na_values ”参数:替换表格中指定数据为空值(NA/NaN)。

1. 默认为None,不替换;

2. 输入字符串,将值与之相同的数据替换为NA/NaN:

3. 传入列表元组等序列,将序列内的元素对应的数据都替换:

4. 输入字典,指定某个列里面的指定数据替换为NA/NaN; 例如,{'时长':5}只修改“时长”列值为5的数据为NaN:

“keep_default_na ”参数:设置对于表格中空值进行解析的方式,根据传入“na_values ”参数的不同,行为如下:

1. “na_values ”参数未设置,“keep_default_na ”参数默认为True,表格中空值解析为NaN:

2. “na_values ”参数未设置,“keep_default_na ”参数设置为False,表格中空值同样为空:

3. “na_values ”参数设置,“keep_default_na ”参数默认为True,空值均解析为NaN:

4. “na_values ”参数设置,“keep_default_na ”参数设置为False,被替代的空值解析为NaN,原本空值依旧为空:

注:如果将“na_filter”参数设置为False ,则将忽略“keep_default_na”和 “na_values”参数。

“na_filter ”参数:是否检查丢失值(空字符串或者空值)。对于大文件来说数据集中没有空值,设定na_filter=False可以提升读取速度。

“encoding ”参数:填写文件编码格式,输入为字符串,例如'utf-8''ANSI'

还有很多不太常用的参数,可以查找资料参考pandas库的read_csv方法去进行相关设置。

【表格数据】-读取CSV

1 功能说明读取CSV文件中的数据,并将读取到的内容进行返回。注:组件使用的是pandas库的read_csv()方法,返回的是一个DataFrame数据集。2...
点击下载文档
确认删除?
回到顶部
客服QQ
  • 客服QQ点击这里给我发消息