歡迎您光臨本站 註冊首頁

DataSphere Studio 發布,一站式數據應用開發管理門戶

←手機掃碼閱讀     admin @ 2019-12-03 , reply:0

 DataSphere Studio(簡稱DSS)是微眾銀行自研的一站式數據應用開發管理門戶。基於插拔式的集成框架設計,及計算中間件Linkis,可輕鬆接入上層各種Web系統,讓數據開發變得簡潔又易用。

開源地址(github https://github.com/WeBankFinTech/DataSphereStudi

gitee https://gitee.com/WeBank/DataSphereStudio

01

DSS是什麼?

DataSphere Studio(簡稱DSS)定位為數據應用開發門戶,閉環涵蓋數據應用開發全流程。在統一的UI下,以工作流式的圖形化拖拽開發體驗,滿足從數據導入、脫敏清洗、分析挖掘、質量檢測、可視化展現、定時調度到數據輸出應用等,數據應用開發全流程場景需求。

DSS通過插拔式的集成框架設計,讓用戶可以輕鬆定製化開發DSS,簡單快速集成各種Web系統,在一個統一的頁面下,便可滿足用戶的所有業務需求。

根據需要,用戶可以簡單快速替換DSS已集成的各種功能組件,或新增功能組件。

藉助於Linkis計算中間件的連接、復用與簡化能力,DSS天生便具備了金融級高併發、高可用、多租戶隔離和資源管控等執行與調度能力。

02

為什麼需要DSS?

隨著大數據技術的廣泛應用,如今數據應用的開發,已遠遠不再是加工和生產幾個報表了。

業務與數據如何快速實現互動,數據如何快速且高效地生成報告,協助商業決策,幾乎是所有企業的核心訴求。

然而,現實卻是,業務用戶面對功能豐富的眾多數據應用系統,往往不知所措,不知如何選擇。

 

以下六個痛點,幾乎是所有企業面臨的非常頭痛的問題:

  1. 數據應用系統多,沒有統一的用戶入口,用戶體驗割裂感強。

  2. 業務流程涉及多個系統相互協作,用戶需頻繁切換系統才可實現業務。

  3. 很多數據應用系統邊界不清晰,功能重疊不僅極大浪費人力,系統間也難以協同互通,用戶更是需要花時間反覆調研比較,才能最終敲定方案。

  4. 跨部門跨業務的數據依賴,全靠口頭約定ready時間,如果上游數據延遲,下游將產生連鎖反應,引發數據災難。

  5. 系統間的數據和信息共享,需要兩兩開發適配,調用複雜且耦合度高。

  6. 沒有一套統一的集成框架,系統間集成需要各種開發適配。

03

DSS的核心概念

DSS提出的五大核心概念,專註於解決上述提到的六大痛點問題。

 

1. 一站式

一站式,是DSS提高業務用戶主動參與數據開發的第一步探索。

DSS通過提供一站式的數據應用開發管理界面,讓用戶無需再多方打聽探討,才能確認是否有工具能滿足需求,所有的數據開發均可在DSS上找到組件完成。

DSS集成度極高,最新開源版已集成的系統有:

  1. 數據開發探索Scriptis

  2. 數據可視化Visualis(基於宜信Davinci二次開發)

  3. 數據質量Qualitis

  4. 調度系統Azkaban

DSS插拔式的框架設計模式,允許用戶快速替換DSS已集成的各個Web系統。如:將Scriptis替換成Zeppelin,將Azkaban替換成DolphinScheduler。

DSS一站式的數據應用開發入口,使用戶養成了有需求時搜DSS,沒需求時探索DSS其他功能組件的良好習慣。

2. 全連接

在DSS工作流拖拽編輯頁面,DSS已集成的所有數據應用系統,都將以工作流節點的形式出現,一種節點對應一個系統功能,讓功能邊界清晰明朗,用戶無需再做選擇題。

DSS工作流節點,支持嵌入已集成的數據應用系統前端界面,讓用戶在一個工作流頁面,即可編輯修改所有的業務功能。

DSS工作流,讓用戶能以業務視角將多個業務功能連接起來,編排成支持實時執行和定時調度的工作流,只需簡單拖拽即可完成數據應用的全流程開發。

在微眾銀行,通過DSS的工作流,業務數據應用的迭代周期從原來的1周,降低到1天,效率提升了600%倍。

DSS工作流,做到讓用戶可以簡單快速地實現業務,同時幫助用戶更好地理解業務。

 

3.插拔式

插拔式是DSS作為數據應用集成框架的最大特色。

DSS就像是插槽,插拔式的設計方式,幾乎不侵入原有的外部系統,且只需做簡單適配,即可快速的集成進來。

DSS通過插拔式集成架設計,讓用戶可以輕鬆定製化開發DSS,簡單快速集成各種Web系統,在一個統一的頁面,便可滿足用戶的所有業務需求

通過插拔式,讓WeDataSphere的各個功能組件既能相互獨立、系統邊界清晰明確,又能有機融合在一起,共同構成WeDataSphere一站式、全連通的大數據使用體驗。

 

4.上下文

何謂上下文?

保持某種操作繼續進行的所有必需信息。如:同時看三本書,每本書已翻看的頁碼就是繼續看這本書的上下文。

DSS上下文,解決DSS工作流跨多個系統節點間的數據和信息共享問題。

例如,B系統需要使用A系統產生的一份數據,通常的做法如下:

  1. B系統調用A系統開發的數據訪問介面

  2. B系統讀取A系統寫入某個共享存儲的數據

DSS藉助Linkis計算中間件實現的WorkflowContext,允許接入的外部系統作為分享節點或讀取節點,將節點信息和節點數據共享給其他外部系統節點,無需外部系統兩兩開發適配,降低系統間調用複雜度和耦合度。

藉助於DSS上下文,微眾銀行WeDataSphere實現徹底解耦,各功能組件的複雜度至少降低了30%。

 

5.信號化

跨部門跨業務的數據依賴問題,一向是業界公認的老大難。

例如:部門B的數據集市依賴於部門A DWD(Data Warehouse Detail數據明細層)的部分數據,

如何確保部門A的數據處理完成後,部門B才正式開始數據處理?

通常的做法是:雙方約定一個時間窗口,部門A保證數據已準備就緒。

中間的空窗期,不僅極大降低了數據處理時效性,且一旦部門A數據處理延遲,下游將引發災難。

DSS作為數據應用開發門戶,提出了一套基於信號的數據依賴解決方案。

接入到DSS的數據應用系統,只需在其前面加上一個信息節點,即可實現跨業務、多系統間的數據依賴協作執行問題。

微眾銀行通過DSS信號化,讓各業務跨多系統的數據依賴,變得簡單、清晰又高效,平均提速了業務30%的數據產出,數據延遲率降低了90%。

04

DSS核心設計理念

AppJoint,DSS插拔式架構的插口,是DSS構建一站式、全連通、插拔式、上下文的基石。

AppJoint,是DSS可以簡單快速集成各種上層Web系統的核心概念。

 

什麼是AppJoint?

AppJoint——應用關節,基於Linkis計算中間件構建,定義了一套統一且規範的前後台接入規範,

讓外部數據應用系統可簡單快速地接入到DSS。

AppJoint的四大規範,讓DSS的數據應用系統接入,變得清晰又便捷。

Security規範和Project規範,是實現一站式的核心抽象。

  1. Security規範,打通DSS與外部系統前後台的登錄跨域問題。

  2. Project規範,打通DSS與外部系統的組織結構、許可權體系,是實現DSS協同開發的通用標準。

NodeService規範和NodeExecution規範,是實現全連通的核心基石。

  1. NodeService規範,打通DSS工作流節點與外部系統的關聯互通。

  2. NodeExecution規範,實現DSS工作流節點與外部系統的任務交互執行。

AppJoint還引入了Linkis計算中間件,讓接入的外部數據應用系統,可快速具備Linkis的併發限流、用戶資源打通等能力。

且基於Linkis實現的WorkflowContext,允許上下文信息跨系統節點級共享,徹底告別應用孤島。

05

DSS已集成的數據應用組件

DSS通過實現多個AppJoint,已集成了豐富多樣的各種上層Web應用系統,基本可滿足用戶的數據開發需求。

用戶如果有需要,也可以輕鬆集成新的Web應用系統,以替換或豐富DSS的數據應用開發流程。

1、數據開發——Scriptis

什麼是Scriptis?

Scriptis是一款支持在線寫SQL、Pyspark、HiveQL等腳本,提交給Linkis執行的數據分析Web工具,且支持UDF、函數、資源管控和智能診斷等企業級特性。

Scriptis AppJoint為DSS集成了Scriptis的數據開發能力,並允許Scriptis的各種腳本類型,作為DSS工作流的節點,參與到應用開發的流程中。

目前已支持HiveSQL、SparkSQL、Pyspark、Scala等腳本節點類型。

 

2、數據可視化——Visualis

什麼是Visualis?

Visualis是一個數據可視化的BI工具,基於宜信開源組件Davinci二次定製化開發而成。

Visualis AppJoint為DSS集成了Visualis的數據可視化能力,並允許數據大屏和儀錶盤,作為DSS工作流的節點,與上游的數據集市關聯起來。

 

3、DSS的調度能力——Azkaban

用戶的很多數據應用,通常希望具備周期性的調度能力。

目前市面上已有的開源調度系統,與上層的其他數據應用系統整合度低,且難以融通。

DSS通過實現Azkaban AppJoint,允許用戶將一個編排好的工作流,一鍵發布到Azkaban中進行定時調度。

DSS還為調度系統定義了一套標準且通用的Linkis工作流解析發布規範,讓其他調度系統可以輕鬆與DSS實現低成本對接。

 

4、數據質量——Qualitis

Qualitis AppJoint 為DSS集成數據質量校驗能力,將數據質量系統集成到DSS工作流開發中,對數據完整性、正確性等進行校驗。

5、數據發送——Sender

Sender AppJoint為DSS集成數據發送能力,目前支持SendEmail節點類型,所有其他節點的結果集,都可以通過郵件發送。

例如:SendEmail節點可直接將Display數據大屏作為郵件發送出來。

6、數據信號——Signal

Signal AppJoint用於強化業務與流程之間的解耦和相互關聯。

DataChecker節點:檢查庫表分區是否存在。

EventSender: 跨工作流和工程的消息發送節點。

EventReceiver: 跨工作流和工程的消息接收節點。

7、功能節點

空節點和子工作流節點。

8、節點擴展

根據需要,用戶可以簡單快速替換DSS已集成的各種功能組件,或新增功能組件。

06

總結

DSS作為數據應用開發門戶,致力於提供一套通用的數據應用接入和開發的標準,讓業務用戶具備參與到數據應用開發的能力和可能。

由於篇幅所限,本文不再詳細論述DSS的架構設計和實現。

期待更多的社區力量,一起推動DSS + Linkis生態圈的成長。


[admin ]

來源:OsChina
連結:https://www.oschina.net/news/111781/dataspherestudio-released
DataSphere Studio 發布,一站式數據應用開發管理門戶已經有281次圍觀

http://coctec.com/news/all/show-post-220628.html