Apache Spark

Apache Spark
开发者	Apache软件基金会, 加州大学柏克莱分校AMPLab, Databricks
当前版本	3.5.3（2024年9月9日；稳定版本）;
源代码库	github.com/apache/spark;
编程语言	Scala, Java, Python
操作系统	Linux, Mac OS, Microsoft Windows
类型	数据分析, 机器学习算法
许可协议	Apache许可协议 2.0
网站	spark.apache.org

Apache Spark是一个开源集群运算框架，最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在执行完工作后将中介资料存放到磁盘中，Spark使用了存储器内运算技术，能在资料尚未写入硬盘时即在存储器内分析运算。Spark在存储器内执行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍，即便是执行程序于硬盘时，Spark也能快上10倍速度。^[2]Spark允许用户将资料加载至集群存储器，并多次对其进行查询，非常适合用于机器学习算法。^[3]

使用Spark需要搭配集群管理员和分布式存储系统。Spark支持独立模式（本地Spark集群）、Hadoop YARN或Apache Mesos的集群管理。^[4] 在分布式存储方面，Spark可以和 Alluxio、HDFS^[5]、 Cassandra^[6] 、OpenStack Swift和Amazon S3等接口搭配。 Spark也支持伪分布式（pseudo-distributed）本地模式，不过通常只用于开发或测试时以本机文件系统取代分布式存储系统。在这样的情况下，Spark仅在一台机器上使用每个CPU核心执行程序。

在2014年有超过465位贡献者投入Spark开发^[7]，让其成为Apache软件基金会以及大数据众多开源项目中最为活跃的项目。

历史

Spark在2009年由Matei Zaharia（英语：Matei Zaharia）在加州大学柏克莱分校AMPLab开创，2010年透过BSD许可协议开源发布。2013年，该项目被捐赠给Apache软件基金会并切换许可协议至Apache2.0。^[8]。2014年2月，Spark成为Apache的顶级项目。2014年11月，Databricks团队使用Spark 刷新资料排序世界记录。^[9]

项目构成要素

Spark项目包含下列几项:

Spark核心和弹性分布式资料集（RDDs）

Spark核心是整个项目的基础，提供了分布式任务调度，调度和基本的I／O功能。而其基础的程序抽象则称为弹性分布式资料集（RDDs），是一个可以并行操作、有容错机制的资料集合。 RDDs可以透过引用外部存储系统的资料集建立（例如：共享文件系统、HDFS、HBase或其他 Hadoop 资料格式的资料来源）。或者是通过在现有RDDs的转换而创建（比如：map、filter、reduce、join等等）。

RDD抽象化是经由一个以Scala、Java、Python的语言集成API所呈现，简化了编程复杂性，应用程序操纵RDDs的方法类似于操纵本地端的资料集合。

以 RDD 为中心的函数式编程的一个典型示例是以下 Scala 程序，它计算一组文本文件中出现的所有单词的频率并打印最常见的单词。每个 map、flatMap（map 的变体）和 reduceByKey 都采用匿名函数对单个数据项（或一对项）执行简单操作，并应用其参数将 RDD 转换为新的 RDD。^[10]^[11]

val conf = new SparkConf().setAppName("wiki_test") 
val sc = new SparkContext(conf) 
val data = sc.textFile("/path/to/somedir") 
val tokens = data.flatMap(_.split(" ")) 
val wordFreq = tokens.map((_, 1)).reduceByKey(_ + _) 
wordFreq.sortBy(s => -s._2).map(x => (x._2, x._1)).top(10)

Spark SQL

Spark SQL在Spark核心上带出一种名为SchemaRDD的资料抽象化概念，提供结构化和半结构化资料相关的支持。Spark SQL提供了领域特定语言，可使用Scala、Java或Python来操纵SchemaRDDs。它还支持使用使用命令行界面和ODBC／JDBC服务器操作SQL语言。在Spark 1.3版本，SchemaRDD被重命名为DataFrame。

Spark Streaming

Spark Streaming充分利用Spark核心的快速调度能力来执行流分析。它截取小批量的资料并对之执行RDD转换。这种设计使流分析可在同一个引擎内使用同一组为批量分析编写而撰写的应用程序代码。

MLlib

MLlib是Spark上分布式机器学习框架。Spark分布式存储器式的架构比Hadoop磁盘式的Apache Mahout快上10倍，扩展性甚至比Vowpal Wabbit（英语：Vowpal Wabbit）要好。^[12] MLlib可使用许多常见的机器学习和统计算法，简化大规模机器学习时间，其中包括：

汇总统计、相关性、分层抽样、假设检定、随机数据生成
分类与回归：支持向量机、回归、线性回归、逻辑斯谛回归、决策树、朴素贝叶斯
协同过滤：ALS
分群：k-平均算法
维度约减：奇异值分解（SVD），主成分分析（PCA）
特征提取和转换：TF-IDF、Word2Vec、StandardScaler
最优化：随机梯度下降法（SGD）、L-BFGS

GraphX

GraphX是Spark上的分布式图形处理框架。它提供了一组API，可用于表达图表计算并可以模拟Pregel抽象化。GraphX还对这种抽象化提供了优化运行。

GraphX最初为加州大学柏克莱分校AMPLab和Databricks的研究项目，后来捐赠给Spark项目。^[13]

特色

Java、Scala、Python和R APIs。
可扩展至超过8000个结点。^[14]
能够在存储器内缓存资料集以进行交互式资料分析。
Scala或Python中的交互式命令行接口可降低横向扩展资料探索的反应时间。
Spark Streaming对即时资料流的处理具有可扩展性、高吞吐量、可容错性等特点。
Spark SQL支持结构化和关系式查询处理（SQL）。
MLlib机器学习算法和Graphx图形处理算法的高阶函数库。

参考资料

^ Release 3.5.3. 2024年9月9日 [2024年10月21日].
^ Xin, Reynold; Rosen, Josh; Zaharia, Matei; Franklin, Michael; Shenker, Scott; Stoica, Ion. Shark: SQL and Rich Analytics at Scale (PDF). June 2013 [2015-05-30]. （原始内容存档 (PDF)于2017-08-09）. |conference=被忽略 (帮助)
^ Matei Zaharia. Spark: In-Memory Cluster Computing for Iterative and Interactive Applications. Invited Talk at NIPS 2011 Big Learning Workshop: Algorithms, Systems, and Tools for Learning at Scale. [2015-05-30]. （原始内容存档于2015-11-13）.
^ Cluster Mode Overview - Spark 1.2.0 Documentation - Cluster Manager Types. apache.org. Apache Foundation. 2014-12-18 [2015-01-18]. （原始内容存档于2015-01-19）.
^ Figure showing Spark in relation to other open-source Software projects including Hadoop. [2015-05-30]. （原始内容存档于2015-03-24）.
^ Doan, DuyHai. Re: cassandra + spark / pyspark. Cassandra User (邮件列表). 2014-09-10 [2014-11-21]. （原始内容存档于2015-05-30）.
^ Open HUB Spark development activity. [2015-05-30]. （原始内容存档于2014-12-07）.
^ The Apache Software Foundation Announces Apache&#8482 Spark&#8482 as a Top-Level Project. apache.org. Apache Software Foundation. 27 February 2014 [4 March 2014]. （原始内容存档于2015-03-17）.
^ Spark officially sets a new record in large-scale sorting. [2015-05-30]. （原始内容存档于2015-05-15）.
^ Frank Kane. Taming Big Data with Apache Spark and Python. Packt. 2017 [2021-11-09]. ISBN 978-1787287945. （原始内容存档于2021-11-09）.
^ dotnet/spark, .NET Platform, 2020-09-14 [2020-09-14], （原始内容存档于2022-04-29）
^ Sparks, Evan; Talwalkar, Ameet. Spark Meetup: MLbase, Distributed Machine Learning with Spark. slideshare.net. Spark User Meetup, San Francisco, California. 2013-08-06 [10 February 2014]. （原始内容存档于2015-06-26）.
^ Gonzalez, Joseph; Xin, Reynold; Dave, Ankur; Crankshaw, Daniel; Franklin, Michael; Stoica, Ion. GraphX: Graph Processing in a Distributed Dataflow Framework (PDF). Oct 2014 [2015-05-30]. （原始内容存档 (PDF)于2014-12-07）. |conference=被忽略 (帮助)
^ Apache Spark FAQ. apache.org. Apache Software Foundation. [5 December 2014]. （原始内容存档于2015-05-20）.

外部链接

[wikidata-4538b4a4368bdeac46464cbe68623fe4d8c4e732-v3-1] Release 3.5.3. 2024年9月9日 [2024年10月21日].

[2] Xin, Reynold; Rosen, Josh; Zaharia, Matei; Franklin, Michael; Shenker, Scott; Stoica, Ion. Shark: SQL and Rich Analytics at Scale (PDF). June 2013 [2015-05-30]. （原始内容存档 (PDF)于2017-08-09）. |conference=被忽略 (帮助)

[3] Matei Zaharia. Spark: In-Memory Cluster Computing for Iterative and Interactive Applications. Invited Talk at NIPS 2011 Big Learning Workshop: Algorithms, Systems, and Tools for Learning at Scale. [2015-05-30]. （原始内容存档于2015-11-13）.

[4] Cluster Mode Overview - Spark 1.2.0 Documentation - Cluster Manager Types. apache.org. Apache Foundation. 2014-12-18 [2015-01-18]. （原始内容存档于2015-01-19）.

[5] Figure showing Spark in relation to other open-source Software projects including Hadoop. [2015-05-30]. （原始内容存档于2015-03-24）.

[6] Doan, DuyHai. Re: cassandra + spark / pyspark. Cassandra User (邮件列表). 2014-09-10 [2014-11-21]. （原始内容存档于2015-05-30）.

[7] Open HUB Spark development activity. [2015-05-30]. （原始内容存档于2014-12-07）.

[8] The Apache Software Foundation Announces Apache&#8482 Spark&#8482 as a Top-Level Project. apache.org. Apache Software Foundation. 27 February 2014 [4 March 2014]. （原始内容存档于2015-03-17）.

[9] Spark officially sets a new record in large-scale sorting. [2015-05-30]. （原始内容存档于2015-05-15）.

[10] Frank Kane. Taming Big Data with Apache Spark and Python. Packt. 2017 [2021-11-09]. ISBN 978-1787287945. （原始内容存档于2021-11-09）.

[11] tnet/spark, .NET Platform, 2020-09-14 [2020-09-14], （原始内容存档于2022-04-29）

[12] Sparks, Evan; Talwalkar, Ameet. Spark Meetup: MLbase, Distributed Machine Learning with Spark. slideshare.net. Spark User Meetup, San Francisco, California. 2013-08-06 [10 February 2014]. （原始内容存档于2015-06-26）.

[13] Gonzalez, Joseph; Xin, Reynold; Dave, Ankur; Crankshaw, Daniel; Franklin, Michael; Stoica, Ion. GraphX: Graph Processing in a Distributed Dataflow Framework (PDF). Oct 2014 [2015-05-30]. （原始内容存档 (PDF)于2014-12-07）. |conference=被忽略 (帮助)

[14] Apache Spark FAQ. apache.org. Apache Software Foundation. [5 December 2014]. （原始内容存档于2015-05-20）.

[2]

[3]

[1]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]