Apache Beam 2.23.0 現已釋出。Apache Beam 是 Google 在 2016 年 2 月份貢獻給 Apache 基金會的專案,主要目標是統一批處理和流處理的程式設計正規化,為無限、亂序、web-scale 的資料集處理提供簡單靈活,功能豐富以及表達能力十分強大的 SDK。Apache Beam 專案重點在於資料處理的程式設計正規化和介面定義,並不涉及具體執行引擎的實現,Apache Beam 希望基於 Beam 開發的資料處理程式可以執行在任意的分散式計算引擎上。
主要更新內容:
Highlights
I/Os
apache_beam.io.gcp.bigquery.ReadFromBigQuery
。此 transform 是實驗性的。它透過將資料導出到 Avro 檔案並讀取這些檔案來從 BigQuery 讀取資料。它還支援透過導出到 JSON 檔案來讀取資料。與時間和日期相關的欄位在行為上有很小的差異。New Features/Improvements
Breaking Changes
RowJson.RowJsonDeserializer
、JsonToRow
和PubsubJsonTableProvider
現在預設接受“implicit nulls”。以前的 null 只能用 explicit null 值表示,例如 {"foo": "bar", "baz": null}
,而像{"foo": "bar"}
這樣的 implicit null 值則會引發異常。現在,兩個 JSON 字串預設都會產生相同的結果。可以使用用RowJson.RowJsonDeserializer#withNullBehavior
來覆蓋此行為。GroupIntoBatches
實驗轉換中的一個錯誤,該錯誤實際上是按鍵對批次進行分組的。這將更改此轉換的輸出型別(BEAM-6696)。Deprecations
[admin
]