歡迎您光臨本站 註冊首頁

DataX Web 2.1.2 釋出

←手機掃碼閱讀     admin @ 2020-06-29 , reply:0

DataX Web是在DataX之上開發的分散式資料同步工具,提供簡單易用的操作介面,降低使用者使用DataX的學習成本,縮短任務配置時間,避免配置過程中出錯。使用者可通過頁面選擇資料來源即可建立資料同步任務,RDBMS資料來源可批量建立資料同步任務,支援實時檢視資料同步進度及日誌並提供終止同步功能,整合並二次開發xxl-job可根據時間、自增主鍵增量同步資料。

任務"執行器"支援叢集部署,支援執行器多節點路由策略選擇,支援超時控制、失敗重試、失敗告警、任務依賴,執行器CPU.記憶體.負載的監控等等。後續還將提供更多的資料來源支援、資料轉換UDF、表結構同步、資料同步血緣等更為複雜的業務場景。

v-2.1.2

新增

  • 新增專案管理模組,可對任務分類管理;
  • 對RDBMS資料來源增加批量任務建立功能,選擇資料來源,表即可根據模板批量生成DataX同步任務;
  • JSON構建增加ClickHouse資料來源支援;
  • 執行器CPU.記憶體.負載的監控頁面圖形化;
  • RDBMS資料來源增量抽取增加主鍵自增方式並優化頁面引數配置;
  • 更換MongoDB資料來源連線方式,重構HBase資料來源JSON構建模組;
  • 指令碼型別任務增加停止功能;
  • rdbms json構建增加postSql,並支援構建多個preSql,postSql;
  • 合併datax-registry模組到datax-rpc中;
  • 資料來源資訊加密演算法修改及程式碼優化;
  • 時間增量同步支援更多時間格式;
  • 日誌頁面增加DataX執行結果統計資料;

升級:

  • PostgreSql,SQLServer,Oracle 資料來源JSON構建增加schema name選擇;
  • DataX JSON中的欄位名稱與資料來源關鍵詞一致問題優化;
  • 任務管理頁面按鈕展示優化;
  • 日誌管理頁面增加任務描述資訊;
  • JSON構建前端form表單不能快取資料問題修復;
  • HIVE JSON構建增加頭尾選項引數;

System Requirements

  •  Language: Java 8(jdk版本建議1.8.201以上)<br>
  •   Python2.7(支援Python3需要修改替換datax/bin下面的三個python檔案,替換檔案在doc/datax-web/datax-python3下)
  • Environment: MacOS, Windows,Linux
  • Database: Mysql5.7

Features

  • 1、通過Web構建DataX Json;
  • 2、DataX Json儲存在資料庫中,方便任務的遷移,管理;
  • 3、Web實時檢視抽取日誌,類似Jenkins的日誌控制檯輸出功能;
  • 4、DataX執行記錄展示,可頁面操作停止DataX作業;
  • 5、支援DataX定時任務,支援動態修改任務狀態、啟動/停止任務,以及終止執行中任務,即時生效;
  • 6、排程採用中心式設計,支援叢集部署;
  • 7、任務分散式執行,任務"執行器"支援叢集部署;
  • 8、執行器會週期性自動註冊任務, 排程中心將會自動發現註冊的任務並觸發執行;
  • 9、路由策略:執行器叢集部署時提供豐富的路由策略,包括:第一個、最後一個、輪詢、隨機、一致性HASH、最不經常使用、最近最久未使用、故障轉移、忙碌轉移等;
  • 10、阻塞處理策略:排程過於密集執行器來不及處理時的處理策略,策略包括:單機序列(預設)、丟棄後續排程、覆蓋之前排程;
  • 11、任務超時控制:支援自定義任務超時時間,任務執行超時將會主動中斷任務;
  • 12、任務失敗重試:支援自定義任務失敗重試次數,當任務失敗時將會按照預設的失敗重試次數主動進行重試;
  • 13、任務失敗告警;預設提供郵件方式失敗告警,同時預留擴充套件介面,可方便的擴充套件簡訊、釘釘等告警方式;
  • 14、使用者管理:支援線上管理系統使用者,存在管理員、普通使用者兩種角色;
  • 15、任務依賴:支援配置子任務依賴,當父任務執行結束且執行成功後將會主動觸發一次子任務的執行, 多個子任務用逗號分隔;
  • 16、執行報表:支援實時檢視執行資料,以及排程報表,如排程日期分佈圖,排程成功分佈圖等;
  • 17、指定增量欄位,配置定時任務自動獲取每次的資料區間,任務失敗重試,保證資料安全;
  • 18、頁面可配置DataX啟動JVM引數;
  • 19、資料來源配置成功後新增手動測試功能;
  • 20、可以對常用任務進行配置模板,在構建完JSON之後可選擇關聯模板建立任務;
  • 21、jdbc新增hive資料來源支援,可在構建JSON頁面選擇資料來源生成column資訊並簡化配置;
  • 22、優先通過環境變數獲取DataX檔案目錄,叢集部署時不用指定JSON及日誌目錄;
  • 23、通過動態引數配置指定hive分割槽,也可以配合增量實現增量資料動態插入分割槽;
  • 24、任務型別由原來DataX任務擴充套件到Shell任務、Python任務、PowerShell任務;
  • 25、新增HBase資料來源支援,JSON構建可通過HBase資料來源獲取hbaseConfig,column;
  • 26、新增MongoDB資料來源支援,使用者僅需要選擇collectionName即可完成json構建;
  • 27、新增執行器CPU、記憶體、負載的監控頁面;
  • 28、新增24類外掛DataX JSON配置樣例
  • 29、公共欄位(建立時間,建立人,修改時間,修改者)插入或更新時自動填充
  • 30、對swagger介面進行token驗證
  • 31、任務增加超時時間,對超時任務kill datax程序,可配合重試策略避免網路問題導致的datax卡死。
  • 32、新增專案管理模組,可對任務分類管理;
  • 33、對RDBMS資料來源增加批量任務建立功能,選擇資料來源,表即可根據模板批量生成DataX同步任務;
  • 34、JSON構建增加ClickHouse資料來源支援;
  • 35、執行器CPU.記憶體.負載的監控頁面圖形化;
  • 36、RDBMS資料來源增量抽取增加主鍵自增方式並優化頁面引數配置;
  • 37、更換MongoDB資料來源連線方式,重構HBase資料來源JSON構建模組;
  • 38、指令碼型別任務增加停止功能;
  • 39、rdbms json構建增加postSql,並支援構建多個preSql,postSql;
  • 40、資料來源資訊加密演算法修改及程式碼優化;
  • 41、日誌頁面增加DataX執行結果統計資料;

Quick Start:

 請點選:Quick Start
 Linux:一鍵部署
 Docker映象:地址


Introduction:

1.執行器配置(使用開源專案xxl-job)

  • 1、"排程中心OnLine:"右側顯示線上的"排程中心"列表, 任務執行結束後, 將會以failover的模式進行回撥排程中心通知執行結果, 避免回撥的單點風險;
  •  2、"執行器列表" 中顯示線上的執行器列表, 可通過"OnLine 機器"檢視對應執行器的叢集機器;

執行器屬性說明


1、AppName: (與datax-executor中application.yml的datax.job.executor.appname保持一致)
   每個執行器叢集的唯一標示AppName, 執行器會週期性以AppName為物件進行自動註冊。可通過該配置自動發現註冊成功的執行器, 供任務排程時使用;
2、名稱: 執行器的名稱, 因為AppName限制字母數字等組成,可讀性不強, 名稱為了提高執行器的可讀性;
3、排序: 執行器的排序, 系統中需要執行器的地方,如任務新增, 將會按照該排序讀取可用的執行器列表;
4、註冊方式:排程中心獲取執行器地址的方式;
    自動註冊:執行器自動進行執行器註冊,排程中心通過底層登錄檔可以動態發現執行器機器地址;
    手動錄入:人工手動錄入執行器的地址資訊,多地址逗號分隔,供排程中心使用;
5、機器地址:"註冊方式"為"手動錄入"時有效,支援人工維護執行器的地址資訊;
 

2.建立資料來源

第四步使用

3.建立任務模版

第四步使用

4. 構建JSON指令碼

  • 1.步驟一,步驟二,選擇第二步中建立的資料來源,JSON構建目前支援的資料來源有hive,mysql,oracle,postgresql,sqlserver,hbase,mongodb,clickhouse 其它資料來源的JSON構建正在開發中,暫時需要手動編寫。

  • 2.欄位對映

  • 3.點選構建,生成json,此時可以選擇複製json然後建立任務,選擇datax任務,將json貼上到文字框。也可以點選選擇模版,直接生成任務。

5.批量建立任務


 6.任務建立介紹(關聯模版建立任務不再介紹,具體參考4. 構建JSON指令碼)

DataX任務

Shell任務

Python任務

PowerShell任務

  1.  任務型別:目前支援DataX任務、Shell任務、Python任務、PowerShell任務;
  2. 阻塞處理策略:排程過於密集執行器來不及處理時的處理策略;
  • 單機序列:排程請求進入單機執行器後,排程請求進入FIFO佇列並以序列方式執行;
  • 丟棄後續排程:排程請求進入單機執行器後,發現執行器存在執行的排程任務,本次請求將會被丟棄並標記為失敗;
  • 覆蓋之前排程:排程請求進入單機執行器後,發現執行器存在執行的排程任務,將會終止執行中的排程任務並清空佇列,然後執行本地排程任務;
  • 增量增新建議將阻塞策略設定為丟棄後續排程或者單機序列
  • 設定單機序列時應該注意合理設定重試次數(失敗重試的次數*每次執行時間<任務的排程週期),重試的次數如果設定的過多會導致資料重複,例如任務30秒執行一次,每次執行時間需要20秒,設定重試三次,如果任務失敗了,第一個重試的時間段為1577755680-1577756680,重試任務沒結束,新任務又開啟,那新任務的時間段會是1577755680-1577758680

增量引數設定

分割槽引數設定

 7. 任務列表

8. 可以點選檢視日誌,實時獲取日誌資訊,終止正在執行的datax程序



9.任務資源監控

10. admin可以建立使用者,編輯使用者資訊


UI

前端github地址

Contributing

Contributions are welcome! Open a pull request to fix a bug, or open an Issue to discuss a new feature or change.

歡迎參與專案貢獻!比如提交PR修復一個bug,或者新建 Issue 討論新特性或者變更。

Copyright and License

MIT License

Copyright (c) 2020 WeiYe

產品開源免費,並且將持續提供免費的社群技術支援。個人或企業內部可自由的接入和使用。

> 歡迎在 [登記地址](https://github.com/WeiYe-Jing/datax-web/issues/93) 登記,登記僅僅為了產品推廣和提升社群開發的動力。

 

v-2.1.1

新增

1. 新增HBase資料來源支援,JSON構建可通過HBase資料來源獲取hbaseConfig,column;
2. 新增MongoDB資料來源支援,使用者僅需要選擇collectionName即可完成json構建;
3. 新增執行器CPU.記憶體.負載的監控頁面;
4. 新增24類外掛DataX JSON配置樣例
5. 公共欄位(建立時間,建立人,修改時間,修改者)插入或更新時自動填充
6. 對swagger介面進行token驗證
7. 任務增加超時時間,對超時任務kill datax程序,可配合重試策略避免網路問題導致的datax卡死。

升級:

1. 資料來源管理對使用者名稱和密碼進行加密,提高安全性;
2. 對JSON檔案中的使用者名稱密碼進行加密,執行DataX任務時解密
3. 對頁面選單整理,圖示升級,提示資訊等互動優化;
4. 日誌輸出取消專案類名等無關資訊,減小檔案大小,優化大檔案輸出,優化頁面展示;
5. logback為從yml中獲取日誌路徑配置

修復:

1. 任務日誌過大時,檢視日誌報錯,請求超時;

專案規劃


[admin ]

來源:OsChina
連結:https://www.oschina.net/news/116791/datax-web-2-1-2-released
DataX Web 2.1.2 釋出已經有281次圍觀

http://coctec.com/news/all/show-post-240194.html