1 功能说明
读取指定表格文件中的数据,并将读取到的内容进行返回。
1)支持office和wps两种应用环境;
2)请使用.xlsx后缀名的Excel文件,如是.xls格式的,建议先进行文件格式转换;
3)该组件使用的是pandas库的read_excel()方法,支持设置表头,索引列等功能。
2 基本使用说明
1. 点击"文件路径"后的文件夹图标,选择需要读取的Excel文件。
2. 设置指定“工作表”,此处默认0,读取第一个Sheet页,其他属性也均为默认值; 添加一个输出组件,将返回值进行输出打印。
3. 将返回值传入变量或其他组件中直接调用。
4. 运行流程,在运行日志窗口打印的内容为第一个工作表的数据。
3 参数配置说明
1)输入的是Excel文件的绝对路径;
2)手动输入时要确保文件存在,如遇到斜杠转译,可以在路径字符串前添加一个“r”,比如写为:r'C:/test/data1.xlsx';
3)参数也可传入变量进行操作。
1)默认为0,表示表格文件的第一个Sheet页;工作表的下标从0开始,填入相应的数字代表了对应的Sheet页,例如入2,则表示第三个工作表。
输入的数字需要有对应的工作表,否则抛出异常。
2)也可传入工作表名称的字符串,如'产品详情',需要注意区分大小写以及空格,必须保证完全一致。
3)如果需要读取所有的工作表,则可以输入None;此时返回的便是值为Dataframe的有序字典。
4)输入工作表下标或名称组成的列表,读取列表内元素对应的工作表;例如输入[0,2],便是读取表格第一、第三个工作表。
1)默认为0,表示以读取的第一行作为表头,表头行以下行为数据。例如,若此处输入1,则表头为所读取表格的第二行,表头行以下为读取的数据。
2)若表格数据不含表头,则可设置为None,默认列的下标作为表头。
1)输入工作表中列的下标,例如输入1。
2)输入工作表列名称的字符串,例如输入'产品类型'。
3)输入列名组成的有序集合,例如[0,2],将第一、三列作为索引列。
“names”参数设置表格中每列的列名。
1)默认为None,即不设置,此时默认“header”参数设置的表头为列名,如果“header”参数也默认为为None,则以列的下标为列名。
2)传入一个有序集合,如列表或元组等,此处输入列表[1,2,'三','四','5',6]为例。
3)注意有序集合的长度要与读取到的表格的数据列数必须是一致,否则报错,提示长度不匹配。 例如输入列表[1,2,'三','四','5']。
“usecols”参数:设置获取表格的列数,默认为None,获取所有列数。
1)输入列的下标组成的有序集合如列表list或元组tuple,此时只读取列的下标对应的列。例如输入元组(0,1,3),则获取第一列,第二列,以及第四列。
2)还可以输入列字母组成的字符串,以逗号,分隔,冒号:表示取范围。例如,输入字符串'A,C:E'获取的是A列,以及C到E列。
• “converters”参数:用以设置表格中指定列的数据类型,输入为字典:例如“converters”参数输入{u'视频保存时长':int},定义"视频保存时长"列的数据类型为整型。
还有很多不太常用的参数,可以查找资料参考pandas库的read_excel方法去进行相关设置。