Spark1.6.0 学习文档

[TOC]

Spark Overview

apache spark 是一个快速的,分布式计算系统。 它提供了包括java, scala, python和R等多种API,其优化的计算引擎支持图计算。 在其基础上,它还提供了Spark SQL来处理结构化框架, MLlib处理机器学习的相关问题, GraphX 用于图计算以及Spark Streaming用于流式处理。

Running the Examples and Shell

运行java或者scala的例子,可以使用bin/run-example <class>

./bin/run-example SparkPi 10

你也可以直接通过spark shell来运行

./bin/spark-shell --master local[2]

--master 用于指明集群中master的url,本地运行的时候,为local,中括号中指定线程数

Spark同时提供了python的API, 运行python API, 使用bin/pyspark

./bin/pyspark --master local[2]

example同样也提供了python版, 如

./bin/spark-submit examples/src/main/python/pi.py 10

从1.4开始,spark同样提供了R API, 运行R API, 使用 bin/sparkR

./bin/sparkR --master local[2]

R实现的example也同样实现了, 如

./bin/spark-submit examples/src/main/r/dataframe.R

Launching on a Cluster

spark可以自己运行,也可以构建在一些已经存在的集群管理框架上, 当前支持的集群框架有:

  • Amazon EC2

  • Standalone Deploy Mode

  • Apache Mesos

  • Hadoop YARN

Last updated

Was this helpful?