Spark RDD(英語:Resilient Distributed Dataset,彈性分散式資料集)是一種資料儲存集合。只能由它支援的資料來源或是由其他RDD經過一定的轉換(Transformation)來產生。在RDD上可以執行的操作有兩種轉換(Transformation)和行動(Action),每個 RDD 都記錄了自己是如何由持久化儲存中的源資料計算得出的,即其血統(Lineage)。

RDD [1]
開發者加州大學柏克萊分校AMPLab, Databricks
程式語言Scala
作業系統跨平台
網站spark.apache.org

轉換

編輯
  • map(func):返回一個新的分散式資料集,由每個原元素經過func函式處理後的新元素組成
  • filter(func):返回一個新的資料集,由經過func函式處理後返回值為true的原元素組成
  • flatMap(func):類似於map,但是每一個輸入元素,會被對映為0個或多個輸出元素,因此,func函式的返回值是一個seq,而不是單一元素

行動

編輯
  • reduce(func):通過函式func聚集資料集中的所有元素,這個函式必須是關聯性的,確保可以被正確的並行執行
  • collect():在driver的程式中,以陣列的形式,返回資料集的所有元素,這通常會在使用filter或者其它操作後,返回一個足夠小的資料子集再使用

依賴

編輯
  • 寬依賴:父RDD中的分片可能被子 RDD 中的多個分片所依賴
  • 窄依賴:父RDD的每個分片至多被子 RDD 中的一個分片所依賴

參考文獻

編輯
  1. ^ [1]