【表格数据】-读取CSV

栏目：云苍穹知识作者：金蝶来源：金蝶云社区发布：2024-09-23浏览：1

【表格数据】-读取CSV

1 功能说明

读取CSV文件中的数据，并将读取到的内容进行返回。

注：组件使用的是pandas库的read_csv()方法，返回的是一个DataFrame数据集。

2 基本使用说明

2.1. 点击“文件路径”参数后的文件图标，选择需要读取的CSV文件：

2.2. 组件返回值即csv文件的内容，其类型为DataFrame数据集：

3 参数配置说明

• “文件路径”参数：填写读取的CSV文件的路径，输入为字符串；也可点击右侧的文件夹图标进行选择。

• “返回值”：返回读取到的CSV文件内容，其数据类型为Dataframe的数据集；可传入变量中保存以供后续组件调用，也可以直接传入其他组件中。

• “sep”参数：填写文件的分隔符，输入为字符串，默认为','。

注： CSV文件是以纯文本形式存储的表格数据，由任意数目的记录组成，记录间以某种换行符分隔开，最常见的就是逗号或制表符。

• “delimiter”参数：备选分隔符,输入字符串，默认为None，如果指定该参数，则sep参数失效。

• “delim_whitespace ”参数：指定空格是否作为分隔符使用，等效于设定sep='\s+'；默认为False，即不设置空格为分隔符，如果这个参数设定为Ture，那么“delimiter ”参数失效。

• “header”参数：指定行作为表头，默认为'infer'，csv表格第一行作为表头；没有表头则可设置为None，也可输入整型数字或整型数字组成的列表。

1. 默认为'infer'，设置数据第一行为表头:

2. 输入整型数字，对应表格内行的下标（从0开始），设置指定行为表头，指定行之前的数据不读取：

3. 输入整型数字的列表，指定列表内元素对应的行为表头，也就是说每一列有多个列名，且介于表头行中间的行数据被忽略不读取：

• “Apikeys”参数：用以设置结果表格的列名，默认为None，不设置列名；传入类似数组的有序集合，如列表、字符串以及元组等，从最后列开始，数据内的元素倒序依次作为对应列的列名。

注：该数据内的元素默认出现重复时，即不同列设置同样的列名时，因为“mangle_dupe_cols”参数默认为True，会自动修改重复的列名（添加后缀信息），并附加一条提示信息。

• “index_col”参数：指定列为行索引，默认为None，即不设置行索引；

1. 输入列的整型数字下标或列名的字符串，指定该列为索引列：

2.输入列名或列下标为元素组成的序列（如列表、元组等），指定序列元素所对应的列作行索引，这样每行便有多个索引。例如，输入[0,'类型']，设置第一列和“类型”列为索引：

• “usecols”参数：设置获取表格的指定列，返回指定列组成的DataFrame数据集。

1. 默认为None，获取所有列，即整个表格：

2. 输入列名或列下标为元素组成的可迭代序列（如列表、元组等），获取序列元素对应表格中的列：

注：序列内的元素需统一，或均为列名，或均为列下标。

• “squeeze”参数：如果文件只包含一列，则返回一个Series类型的数据。

1. 默认为False，文件只包含一列的情况下返回值依旧为Dataframe类型数据；

2. 设置为True，返回一个Series类型的数据。

• “prefix”参数：在没有列名（header=None）时，给列下标组成的列名添加前缀。

1. 默认为None，不添加前缀

2. 输入字符串，在列下标前添加前缀作为列名：

• “mangle_dupe_cols ”参数：出现重复的列名时，自动给重复的列名添加后缀，将相同的列名【...X...X...】修改为【...X...X.n...】，默认为True，且不支持False：

注：设置为False，会抛出异常。

• “dtype ”参数：设置列的数据类型；输入列名为key，数据类型为value的字典，如{'时长':int}，设置“时长”列为整型：

• “engine ”参数：设置使用的分析引擎语言,默认为'python',也可以使用'C'，C引擎快但是Python引擎功能更加完备。

• “converters ”参数：可以在读取的时候对列数据进行变换；例如{"风险": lambda x: int(x) + 100}是对“风险”列的数值加100的操作：

自然也是可以对列进行修改数据类型之类的操作。

• “skipinitialspace ”参数：设置是否忽略分隔符后的空格，默认为False，不忽略，True即忽略。

• “skiprows ”参数：设置需要跳过忽略的行数。

1. 默认为None，不跳过任何行。

2. 若输入为整型数字，便跳过多少行（从文件起始行开始）；

3. 或输入需要跳过的行数号（文件第一行从0开始）组成的有序序列，如列表、元组：

• “skipfooter ”参数：从文件尾部开始跳过忽略。

默认为0，忽略 0 行；输入整型数字，忽略该整数行数据：

c引擎不支持。

• “nrows ”参数：设置读取数据的行数（不包括表头）。

1. 默认为None，读取所有行；

2. 或输入整型数字，读取该整数行数据：

• “na_values ”参数：替换表格中指定数据为空值（NA/NaN）。

1. 默认为None，不替换；

2. 输入字符串，将值与之相同的数据替换为NA/NaN：

3. 传入列表元组等序列，将序列内的元素对应的数据都替换：

4. 输入字典，指定某个列里面的指定数据替换为NA/NaN；例如，{'时长':5}只修改“时长”列值为5的数据为NaN：

• “keep_default_na ”参数：设置对于表格中空值进行解析的方式，根据传入“na_values ”参数的不同，行为如下：

1. “na_values ”参数未设置，“keep_default_na ”参数默认为True，表格中空值解析为NaN：

2. “na_values ”参数未设置，“keep_default_na ”参数设置为False，表格中空值同样为空：

3. “na_values ”参数设置，“keep_default_na ”参数默认为True，空值均解析为NaN：

4. “na_values ”参数设置，“keep_default_na ”参数设置为False，被替代的空值解析为NaN，原本空值依旧为空：

注：如果将“na_filter”参数设置为False ，则将忽略“keep_default_na”和 “na_values”参数。

• “na_filter ”参数：是否检查丢失值（空字符串或者空值）。对于大文件来说数据集中没有空值，设定na_filter=False可以提升读取速度。

• “encoding ”参数：填写文件编码格式，输入为字符串，例如'utf-8'、'ANSI'。

还有很多不太常用的参数，可以查找资料参考pandas库的read_csv方法去进行相关设置。

【表格数据】-读取CSV

1 功能说明读取CSV文件中的数据，并将读取到的内容进行返回。注：组件使用的是pandas库的read_csv()方法，返回的是一个DataFrame数据集。2...

点击下载文档

上一篇：【表格数据】-重置index下一篇：【表格数据】-统计求和

本文2024-09-23 01:04:59发表“云苍穹知识”栏目。
本文链接：https://wenku.my7c.com/article/kingdee-cangqiong-143647.html

最新文档

阅读排行

确认删除?

客服QQ