Spark安装及配置

[TOC]

Apache Spark 是一个快速的分布式计算系统,它针对java,scala, python 和 R 提供了高水平的api, 同时也提供了支持图计算的引擎。 spark还提供了一系列工具,如spark sql 用于通过sql处理结构化数据, mlib用于机器学习, graphx用于图形处理, 还有spark streaming.

下载

下载页获取spark。 由于目前使用的是spark-1.6.0-cdh5.8.0, 我们暂时介绍spark1.6.0。 spark使用hadoop客户端来调用hdfs和yarn。预先下载目前比较流行的版本的hadoop包,通过制定spark的classpath,可以使用任何版本的hadoop。

Using Spark's "Hadoop Free" Build

从spark1.4开始, 项目中的"hadoop free" 允许用户非常容易的将spark与任何版本的hadoop相关联。你只需要制定 SPARK_DIST_CLASSPATH , 用于指向含有hadoop包的目录。大多数情况下,都是在conf/spark-env.sh 中设置的。

### in conf/spark-env.sh ###

# If 'hadoop' binary is on your PATH
export SPARK_DIST_CLASSPATH=$(hadoop classpath)

# With explicit path to 'hadoop' binary
export SPARK_DIST_CLASSPATH=$(/path/to/hadoop/bin/hadoop classpath)

# Passing a Hadoop configuration directory
export SPARK_DIST_CLASSPATH=$(hadoop --config /path/to/configs classpath)

如果你需要从源码中构建spark, 请查看这里

Last updated

Was this helpful?