歡迎您光臨本站 註冊首頁

Apache Beam 2.23.0 釋出,大資料批處理和流處理標準

←手機掃碼閱讀     admin @ 2020-07-31 , reply:0

Apache Beam 2.23.0 現已釋出。Apache Beam 是 Google 在 2016 年 2 月份貢獻給 Apache 基金會的專案,主要目標是統一批處理和流處理的程式設計正規化,為無限、亂序、web-scale 的資料集處理提供簡單靈活,功能豐富以及表達能力十分強大的 SDK。Apache Beam 專案重點在於資料處理的程式設計正規化和介面定義,並不涉及具體執行引擎的實現,Apache Beam 希望基於 Beam 開發的資料處理程式可以執行在任意的分散式計算引擎上。 

主要更新內容:

Highlights

I/Os

  • 添加了對 Snowflake reading 的支援(Java)(BEAM-9722)。
  • 增加了對寫入 Splunk 的支援(Java)(BEAM-8596)。
  • 添加了對 assume role 的支援(Java)(BEAM-10335)。
  • 已新增一個新的可從 BigQuery 讀取的 transform:apache_beam.io.gcp.bigquery.ReadFromBigQuery。此 transform 是實驗性的。它透過將資料導出到 Avro 檔案並讀取這些檔案來從 BigQuery 讀取資料。它還支援透過導出到 JSON 檔案來讀取資料。與時間和日期相關的欄位在行為上有很小的差異。
  • 為 SnowflakeIO.write 新增 dispositions(BEAM-10343

New Features/Improvements

  • 更新 Snowflake JDBC 依賴關係,並將 application=beam 新增到 connection URL(BEAM-10383)。

Breaking Changes

  • 在反序列化 JSON(Java)時,RowJson.RowJsonDeserializerJsonToRowPubsubJsonTableProvider現在預設接受“implicit nulls”。以前的 null 只能用 explicit null 值表示,例如 {"foo": "bar", "baz": null},而像{"foo": "bar"} 這樣的 implicit null 值則會引發異常。現在,兩個 JSON 字串預設都會產生相同的結果。可以使用用RowJson.RowJsonDeserializer#withNullBehavior來覆蓋此行為。
  • 修復 Python 中GroupIntoBatches實驗轉換中的一個錯誤,該錯誤實際上是按鍵對批次進行分組的。這將更改此轉換的輸出型別(BEAM-6696)。

Deprecations

  • 刪除 Gearpump runner。(BEAM-9999
  • 刪除 Apex 執行程式。(BEAM-9999
  • RedisIO.readAll()  已被棄用,將在 2 個版本中刪除,使用者必須使用 RedisIO.readKeyPatterns()  作為替代(BEAM-9747)。

更新說明:https://beam.apache.org/blog/beam-2.23.0/


[admin ]

來源:OsChina
連結:https://www.oschina.net/news/117579/apache-beam-2-23-0-released
Apache Beam 2.23.0 釋出,大資料批處理和流處理標準已經有77次圍觀

http://coctec.com/news/all/show-post-246146.html