文章目录
一、实战概述
-
这是一个关于在Spark集群环境中读取和处理Excel及CSV文件的实战操作流程总结。
-
首先,通过WPS工具将Excel数据源
test.xlsx
转换为CSV格式,并保存为test.csv
文件。然后将此CSV文件从名为“bigdata”的Ubuntu虚拟机上传至CentOS系统的Spark集群主节点(master)bigdata1
的/home
目录下。 -
在Spark集群管理中,用户首先在master节点上启动spark-shell交互式环境。接着,使用Spark的DataFrame API读取已上传的
test.csv
文件,通过指定格式、表头选项以及字段分隔符,成功将CSV内容加载到DataFrame (testdf
)中,并通过.show
方法查看其内容。 -
接下来,在处理Excel文件时,用户下载了与Spark兼容的
spark-excel_2.12-3.3.1_0.18.5.jar
包并将其复制到master节点的/home
目录。随后,在重新启动包含该jar包的spark-shell时,通过添加--jars
参数指定依赖库路径