用户指定Hadoop版本部署Spark 2.4.7

2020年11月20日 0 条评论 206 次阅读 0 人点赞

背景

Spark官网提供spark-2.4.7-bin-without-hadoop.tgz、spark-2.4.7-bin-hadoop2.(6|7).tgz和spark-2.4.7.tgz (源代码)三种类型的压缩包下载,第二种是基于Hadoop 2.6/7的预先编译版,需要与本机安装的Hadoop版本对应。当然不对应的话大部分情况还是能用的不会出现很大问题,有的同学为了省事大多会直接下载这种预编译版本。需要提一句的是Spark自带了Scala环境,所以不需要额外安装,但是JDK 是需要安装的。

指定Hadoop版本

用户指定Hadoop版本来部署Spark有两种方式,一种是用户自己重新打包,一种是下载spark-2.4.7-bin-without-hadoop.tgz通过配置让Spark使用我们制定的Hadoop版本,两种方式官网都有参考,本文只给出后者的部署方式。

Spark通过Hadoop 客户端的库来与HDFS 和 YARN进行交互, 从 Spark 1.4 版本开始,官方提供了“Hadoop free”版本,以便用户可以在指定版本 Hadoop 环境中部署Spark。 如果用户使用指定版本的Hadoop需要修改 SPARK_DIST_CLASSPATH 以包含 Hadoop classpath下的jar。 最方便的方法是在 conf/spark-env.sh 中添加SPARK_DIST_CLASSPATH配置即可:

参考资料

  • https://spark.apache.org/docs/2.4.7/index.html

重剑无锋,大巧不工。

文章评论(0)