隨著現(xiàn)代數據技術體系的發(fā)展,數據驅動已經成為企業(yè)管理不可或缺的一部分,數據遍布在企業(yè)內部的每一個角落。每個企業(yè)積累的海量的大數據,但真正發(fā)揮效能的數據微乎其微,形成了大量的“沉睡”數據。而企業(yè)內部的數據用戶,從數據分析師到市場營銷人員再到銷售人員,每個員工現(xiàn)在都在使用數驅動業(yè)務,形成新的數據用戶社區(qū)(Data Community)。
一方面,海量的數據在沉睡,另一方面,大量用戶需求涌現(xiàn),如今不足的數據計算資源和 BI 團隊人力資源對這些不斷增長的期望不堪重負。
新時代來臨,結合Dev-Ops, New DataStack, DataFebric等諸多理念,全球企業(yè)開始采用最新的DataOps框架解決新時代的“數據蜘蛛網”問題。
白鯨開源 WhaleStudio 套件中的 WhaleScheduler 作為一款企業(yè)統(tǒng)一的云原生可視化大數據工作流調度平臺,旨在幫助企業(yè)解決內部多數據源、多數據系統(tǒng)復雜的數據集成,持續(xù)開發(fā)、持續(xù)部署、數據捕獲、數據打通等一系列問題。
WhaleScheduler 具備可靠性、可擴展性、易用性、靈活性、可視化和安全性等特性,擁有完善的調度能力、數據處理能力、集群管理能力、數據可視化能力、監(jiān)控和報警能力,以及安全管理能力,能夠在復雜的生產環(huán)境中針對行業(yè)客戶增加企業(yè)級產品功能并加強系統(tǒng)安全與穩(wěn)定性,支持數據庫、云、大數據、AI組件等數十種系統(tǒng)的任務調度,助力企業(yè)數據消費者、數據探索者、數據分析家、數據科學家,以及數據客戶/供應商提高調度效率,降低生產成本。
接入WhaleGPT AI對話助手,賦能企業(yè)私有化模型訓練 為了降低數據調度系統(tǒng)的使用難度,使數據分析師等業(yè)務部門的人員無需代碼背景也可以無門檻的進行數據開發(fā)和操作調度作業(yè),WhaleScheduler 2.4.5 接入了 WhaleStudio 新增重要模塊——WhaleGPT 的 AI 助手,可以輔助業(yè)務人員直接完成數據業(yè)務腳本開發(fā),讓他們更關注業(yè)務本身,而不是代碼。
WhaleStudio 是白鯨開源科技根據全球領先的 DataOps 理念打造的新一代數據集成調度工具,最新版本的 WhaleStudio 中除了 WhaleScheduler 與 WhaleTunnel 兩大核心組件之外,又新增了 WhaleGPT 大模型服務模塊,加強了 WhaleStudio 的模型訓練能力,提供給用戶完整的 DataOps 解決方案。
WhaleGPT AI 對話助手目前支持:
查詢功能操作幫助,通過詢問功能名稱可以返回該功能的上手指南,部分功能提供跳轉鏈接至指定操作界面;
通過對話查詢工作流,直接在對話中詢問 WhaleGPT,返回對應的工作流并提供跳轉鏈接;
通過對話提出需求讓 GPT 生成 SQL 代碼,在對話中將自己的需求描述出來,如寫查詢某某數據的 SQL,返回該需求的 SQL 代碼。
例如,WhaleGPT 可以在眾多復雜的使用手冊和規(guī)則中,找到你所需要的功能和說明。
WhaleGPT 還可以輔助編程、Txt2SQL,提高數據程序員的開發(fā)效率。
WhaleGPT 自帶的大模型能力讓企業(yè)可以快速訓練私有化模型,普通程序員用半天時間就具備訓練私有化大模型的能力,讓大模型幫助客戶更了解自己的業(yè)務,加強數據安全,跨越大模型與現(xiàn)有系統(tǒng)數據的鴻溝。
擴展數據類型支持能力 隨著越來越多的數據庫出現(xiàn),數據分散、數據不一致、數據安全性等問題越來越突出,數據兼容性的問題(數據格式、數據結構、數據類型不兼容等)也變得更加復雜。
WhaleScheduler 有更多的數據源支持可以提供更全面、準確的數據,從而提高數據分析和決策的質量。同時,對于某些特定業(yè)務需要不同類型的數據源來支持的需求,WhaleScheduler 也能輕松應對。
在新版本中,我們新增了對多種國產數據源的支持,以滿足客戶對信創(chuàng)環(huán)境的更高需求:
IoTDB、飛輪數據庫、TDengine、Mirrorship、Openlookeng、瀚高數據庫、人大金倉數據庫(V8)、ClickHouse、PolarDB。
提高云原生支持水平 同時,WhaleScheduler 全面支持云原生,為了幫助企業(yè)更好地適應大數據和云原生大時代下的數據處理與治理,我們對更多云廠商的相關數據庫進行了支持:
PolarDB 分布式版 (V2.2)、PolarDB PostgresOL版 (V11)、GaussDB、openGauss、PostgreSQL、TDSQL。
增強數據安全性 01 信創(chuàng)環(huán)境適配升級 信創(chuàng)(信息技術應用創(chuàng)新)是數據安全、網絡安全的基礎,也是“新基建”的重要內容,推動國家的核心技術必須實現(xiàn)自主可控。信創(chuàng)是目前國內的一項戰(zhàn)略,也是當今形勢下國內經濟發(fā)展的新動能。
為解決本質安全的問題,助力企業(yè)自主可控地完成經濟數字化轉型、提升產業(yè)鏈發(fā)展,WhaleScheduler 2.4.5 版本對多個國產系統(tǒng)環(huán)境進行了適配,保障企業(yè)數據安全,包括:
openEuler、、鯤鵬、統(tǒng)信、OpenCloudOS、TencentOS Server2、TencentOS Server3。
02 提高安全性 WhaleScheduler 自誕生以來就將安全問題作為產品管理的關鍵指標,為了提高產品安全性,WhaleScheduler 2.4.5 優(yōu)化多項安全措施:
支持使用 SSL 證書訪問數據源、支持自動刷新 HDFS 服務認證、支持 zk 的 Kerberos 認證、Hive 數據源支持 keytab 配置、配置文件密碼加密(jaspyt 加密)。
功能全新升級優(yōu)化 為了優(yōu)化產品的使用習慣,WhaleScheduler 2.4.5 對首頁、DAG、錯誤提示框等進行了優(yōu)化,方便客戶更加無邊界地試用產品。
01 功能優(yōu)化 在功能上,WhaleScheduler 2.4.5 進行的部分重要優(yōu)化包括:
工作流邏輯任務新增 Dynamic 動態(tài)任務組件:在工作流邏輯組件中新增動態(tài)任務組件,使用動態(tài)任務組件后工作流可以在運行中根據每次輸入參數變量的變化動態(tài)的生成調度實例。這對于需要針對不同的數據通過同樣的腳本進行處理的用戶來說,不再需要重復設置多個工作流,也不需要事先估算需要運行的實例數量,如機器學習模型多參數調參訓練的場景。針對同類多樣的數據調度,動態(tài)任務組件可以大批量的同時執(zhí)行,大大提高了數據處理的效率。
基線告警:某些任務的數據需要在指定時間點之前完成,由于前置任務拖延,導致最后的任務不能在規(guī)定的時間點完成,需要提前預警并人工介入處理,因此需要提前預判任務是否有延誤風險以提供處理的時間空間。關鍵調度任務可以通過設置基線進行監(jiān)控,當存在未能承諾時間內完成的風險時及時給負責人進行告警提醒,以保障業(yè)務的正常運轉。
支持自定義任務組件:當前工作流內不支持的任務類型,用戶可以通過提供該組件jar包并在配置文件中設置需要配置的任務參數項,即可在工作流內新增該任務類型組件進行調度作業(yè)使用了。
影響分析支持展示工作流實例、任務實例的血緣,并支持運行操作:工作流實例、任務實例維度的調度血緣展示,同時可以在影響分析中直接對工作流和任務執(zhí)行運行相關的操作。任務依賴是調度作業(yè)處理中的核心場景。尤其是企業(yè)規(guī)模較大業(yè)務涉及面更廣時,其數據處理流程日益復雜。在調度作業(yè)中往往面臨著龐大的調度依賴,一旦當其中某一個節(jié)點出現(xiàn)數據錯誤,排查問題變得十分困難,需要一個一個的檢查依賴項并向上溯源。實例級的影響分析正是為了解決這一問題誕生的,使調度作業(yè)的運維工作變得更為簡單和高效。在工作流/任務的運行實例的影響分析中,可以清晰地看到上有依賴的實例,并支持繼續(xù)向上或拓展溯源。一旦找到了問題源頭,經過處理后,可以在影響分析中直接執(zhí)行相關的人工干預操作。
IDE 支持通過資源中心引入 SQL 腳本:除了腳本文件和 jar 之外,用戶還可以可以直接在任務腳本里導入本地/git 上的 SQL 腳本。在任務中無需重復編寫任務腳本,可以將已經開發(fā)好的任務腳本上傳至資源中心,或者通過資源中心引用 git 倉庫中的腳本代碼,或在資源中心中直接開發(fā)或共享的腳本文件,直接導入任務腳本中。
跨項目批量運維工作流:項目運維人員通常需要同時運維多個項目作業(yè),反復地切換項目查看工作流和任務運行實例進行維護,影響使用體驗。新增了跨項目的功能后,用戶可以在統(tǒng)一視角,查看和處理自己權限范圍內的所有調度業(yè)務了,簡化了用戶操作的同時提高了運維效率。
02 權限功能改造 根據此前客戶反饋權限功能的限制導致的不便,WhaleScheduler 2.4.5 進行了權限功能的改造,以便客戶進行權限管理。
新版本中,客戶可以按照項目來隔離角色權限,分為項目管理員、項目運維、項目開發(fā)、項目訪客角色,結合資源管理給與不同人員不同權限。
03 增強導入、導出功能 此外,新版本還增強了導入、導出功能。如果不采用自動化的 CI/CD 流程,WhaleScheduler 支持跨環(huán)境打包部署,主要用于工作的流的遷移工作,從環(huán)境 A 中導出(導入)到環(huán)境 B 中,通過該功能進行快速打包或數據備份。
WhaleScheduler 此次版本升級將提高對用戶的支持能力,更好地賦能企業(yè)云化的數據處理和調度、數據快速獲取及企業(yè)整體云化數據資產的管理問題,協(xié)助完成企業(yè)數字化升級的整體目標。