在這個充滿不確定的時代,唯一可以確定的就是企業(yè)的數(shù)字化轉(zhuǎn)型
數(shù)字經(jīng)濟時代,數(shù)據(jù)生產(chǎn)要素已經(jīng)明確作為勞動力、資本、技術(shù)和土地之后的第五大生產(chǎn)要素,成為推動經(jīng)濟發(fā)展的核心力量。數(shù)字化轉(zhuǎn)型成為企業(yè)高質(zhì)量發(fā)展的重要引擎,促進數(shù)字技術(shù)與實體經(jīng)濟深度融合也已成為國家“十四五”規(guī)劃的重要內(nèi)容。
與此同時,新冠疫情的爆發(fā)與蔓延給無數(shù)行業(yè)帶來沖擊,讓越來越多的行業(yè)、企業(yè)看到數(shù)字化建設(shè)、管理、運營的必要性。在這個充滿不確定的時代,唯一可以確定的就是企業(yè)的數(shù)字化轉(zhuǎn)型。
而對于進入數(shù)字化轉(zhuǎn)型階段的企業(yè)而言,數(shù)據(jù)采集同步能力成為桎梏企業(yè)通往精益之路的巨大技術(shù)阻礙。
擁抱實時數(shù)據(jù)管理,是數(shù)字化轉(zhuǎn)型的必然選擇
不論企業(yè)數(shù)字化轉(zhuǎn)型處于哪一個階段,數(shù)據(jù)采集同步都是企業(yè)最實際最高頻的需求。
一方面,企業(yè)的精細(xì)化運營對實時數(shù)據(jù)的需求在不斷膨脹,實時數(shù)據(jù)能夠幫助企業(yè)以最快速度收集來自傳感器(如工業(yè)領(lǐng)域的機器轉(zhuǎn)速、溫度、壓力、流量等)、股票行情、服務(wù)器日志、傳統(tǒng)數(shù)據(jù)庫甚至是Hadoop系統(tǒng)的數(shù)據(jù)。以實時或近乎實時的方式挖掘出有價值的信息,對企業(yè)快速做出決策有著重大意義。
另一方面,隨著生產(chǎn)設(shè)備和相關(guān)技術(shù)的智能化升級,以及全球市場無時無刻都在變化的需求,行業(yè)內(nèi)實時數(shù)據(jù)的采集與計算相關(guān)標(biāo)準(zhǔn)已經(jīng)提升到了秒級要求,當(dāng)前的批處理數(shù)據(jù)架構(gòu)難以應(yīng)對,需要構(gòu)建新一代的實時數(shù)據(jù)架構(gòu)體系以實現(xiàn)“換擋加速”。
工具缺乏,自研成本高,企業(yè)實時數(shù)據(jù)采集同步面臨嚴(yán)峻挑戰(zhàn)
企業(yè)在實時數(shù)據(jù)采集同步過程中面臨著以下的挑戰(zhàn):
1.傳統(tǒng)數(shù)據(jù)采集工具單一(例如OGG)、封閉、兼容性弱、非高可用;傳統(tǒng)數(shù)據(jù)傳輸工具性能差、穩(wěn)定性低、響應(yīng)慢。
2.缺乏專業(yè)數(shù)據(jù)采集同步工具,數(shù)據(jù)采集工具自研難度、成本高、易用性不夠,配套工具集成難度大、單獨采購成本高,且與實時數(shù)據(jù)同步工具銜接復(fù)雜;
3.缺乏數(shù)據(jù)采集經(jīng)驗,數(shù)據(jù)采集覆蓋面不全、粒度無法滿足自身業(yè)務(wù)要求;
4.數(shù)據(jù)獲取實時性不夠,數(shù)據(jù)采集到到業(yè)務(wù)可用時效不確定,多端數(shù)據(jù)采集不規(guī)范;
5.缺乏統(tǒng)一的數(shù)據(jù)管理與數(shù)據(jù)加密方案,數(shù)據(jù)維護成本高;
6.實時開發(fā)門檻高,技術(shù)人員需要深入學(xué)習(xí)計算引擎的底層知識,當(dāng)業(yè)務(wù)邏輯比較復(fù)雜時,還需要了解離線與實時如何結(jié)合使用,對開發(fā)人員技術(shù)能力要求較高。
InfoMover實時采集同步,逐個擊破采、傳痛點,最大化數(shù)據(jù)價值釋放
InfoMover實時采集同步是睿帆科技基于開源CDC組件Debezium之上,自主研發(fā)的國產(chǎn)化實時數(shù)據(jù)采集分布式數(shù)據(jù)傳輸工具。
InfoMover提供數(shù)據(jù)源/目標(biāo)端配置、數(shù)據(jù)采集/同步(注:數(shù)據(jù)采集表示數(shù)據(jù)流式采集;數(shù)據(jù)同步表示同構(gòu)或異構(gòu)數(shù)據(jù)庫間數(shù)據(jù)同步)任務(wù)管理、實時監(jiān)控、數(shù)據(jù)一致性校驗、項目用戶權(quán)限管理和安全審計等功能,具備可擴展、高并發(fā)、低延遲、數(shù)據(jù)庫低消耗、高可用、數(shù)據(jù)重采、對各類數(shù)據(jù)庫兼容性強等特征,適用于金融、保險、通訊、政府、電商等行業(yè)實現(xiàn)數(shù)據(jù)實時采集、數(shù)據(jù)遷移/流轉(zhuǎn)、數(shù)據(jù)治理/數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)庫輔助備份等目標(biāo),助力于打通各個數(shù)據(jù)孤島壁壘,實現(xiàn)數(shù)據(jù)價值最大化。
基于日志的CDC,保障數(shù)據(jù)一致性和實時性
Change Data Capture(變更數(shù)據(jù)捕獲)的技術(shù)方案非常多,目前業(yè)界主流的實現(xiàn)機制可以分為兩種:一種是基于查詢的 CDC(DataX、Sqoop,kettle),即離線調(diào)度查詢作業(yè)批處理。這種實現(xiàn)機制無法保障數(shù)據(jù)一致性,查的過程中有可能數(shù)據(jù)已經(jīng)發(fā)生了多次變更;并且不保障實時性,基于離線調(diào)度存在天然的延遲。
而InfoMover實時采集同步采用的正是另一種實現(xiàn)機制:基于日志的 CDC,即實時消費日志流處理。這一機制使得InfoMover與傳統(tǒng)數(shù)據(jù)采集工具相比有以下優(yōu)勢:
1.確保捕獲所有的數(shù)據(jù)變更。
2.以極低的延遲生成變更事件,同時避免因為頻繁輪詢導(dǎo)致CPU 使用率增加。
3.不需要更改數(shù)據(jù)模型,例如‘Last Updated’ 列。
4.可以捕獲刪除操作。
5.可以捕獲舊記錄狀態(tài)以及其他元數(shù)據(jù),例如,事務(wù)ID(具體取決于數(shù)據(jù)庫的功能和配置)。
安裝方便、操作簡單,大幅降低使用門檻
InfoMover安裝簡單方便,支持Docker構(gòu)建發(fā)布,即開即用;支持滾動升級,在不影響正常任務(wù)的條件下可完成組件升級,做到升級無感知。
頁面操作簡單易用,指引清晰明確,減少用戶使用過程的學(xué)習(xí)成本。采集過程的數(shù)據(jù)統(tǒng)一存放在Kafka消息集群中,并接受安全管控,并具備再流轉(zhuǎn)到用戶指定的二級Kafka消息集群的能力,助力Flink等工具達(dá)到實時計算的目標(biāo)。
數(shù)據(jù)同步過程,針對數(shù)據(jù)庫對象(如表)的結(jié)構(gòu)做了DDL做明確指引,即提供自動處理也具備提供用戶手動執(zhí)行等指引。
低功耗、高可用、高安全
系統(tǒng)資源消耗低:經(jīng)基準(zhǔn)測試驗證,數(shù)據(jù)采集過程中InfoMover服務(wù)1個核2G內(nèi)存60Mbps帶寬最大可以運行20個采集任務(wù)。注:具體情況還需根據(jù)客戶實際環(huán)境做相應(yīng)驗證。
高可用:系統(tǒng)由最少三個節(jié)點組成,一或兩個節(jié)點故障,任務(wù)自動跳轉(zhuǎn)至正常的節(jié)點上;整體服務(wù)故障重啟后任務(wù)自動從上次斷點停服開始繼續(xù)工作,任務(wù)具備自愈能力。支持手動任務(wù)數(shù)據(jù)重采,一旦發(fā)生不可預(yù)知的情況導(dǎo)致任務(wù)失效,可以通過一鍵“數(shù)據(jù)重采”恢復(fù)任務(wù),從任務(wù)級別迅速恢復(fù)業(yè)務(wù)。
高安全:系統(tǒng)提供項目用戶及鑒權(quán)等管理能力;具備對所有操作行為進行安全審計(記錄用戶信息、各種行為與操作,幫助安全審計人員回顧審查工作中存在的安全漏洞及隱患)能力;數(shù)據(jù)采集匯總到Kafka集群保存過程提供鑒權(quán)機制包括SASL/PLAIN, SASL/SCRAM等,確保數(shù)據(jù)只開放給下游合法申請人;后臺日志做脫敏處理,防止敏感信息外漏。
系統(tǒng)輔助功能齊全:監(jiān)控涵蓋集群組件狀態(tài)、任務(wù)狀態(tài)、日志管理、數(shù)據(jù)質(zhì)量等,幫助運維盡早盡快發(fā)現(xiàn)故障和問題。
更強大的兼容能力,支撐更多實際業(yè)務(wù)場景
目前,InfoMover 2.4版本可以滿足多種數(shù)據(jù)庫不限于Oracle(10g/11g/12c/19c/21c)、MySQL(5.7/8.X)、PostgreSQL(9.5.x/9.6.x/10/11/12/13/14)、TiDB(4.0.10)之間的數(shù)據(jù)同步,滿足推送數(shù)據(jù)至Kafka(2.8/3.X)等消息集群等能力,并在金融資訊部門、通信運營部門數(shù)據(jù)流轉(zhuǎn)處理等場景中得到實踐。
InfoMover,價值不止于橋梁
對于企業(yè)而言,InfoMover不僅是數(shù)據(jù)間流轉(zhuǎn)的穩(wěn)定可靠“橋梁”,能夠為實時計算提供高效高質(zhì)量的數(shù)據(jù)支持,助力企業(yè)數(shù)字化轉(zhuǎn)型,還具備以下兩方面的意義:
1.實現(xiàn)數(shù)據(jù)從傳統(tǒng)MPP架構(gòu)升級到大數(shù)據(jù)平臺、湖倉體系的有利支撐。
近兩年來,湖倉一體的概念興起,企業(yè)開始逐步關(guān)注數(shù)據(jù)平臺架構(gòu)問題,更強調(diào)通過統(tǒng)一的架構(gòu),依托一個一站式的多模型數(shù)據(jù)平臺來解決數(shù)據(jù)湖、數(shù)據(jù)倉庫多樣化的數(shù)據(jù)分析場景。InfoMover實時采集同步是實現(xiàn)數(shù)據(jù)從傳統(tǒng)MPP架構(gòu)升級到大數(shù)據(jù)平臺、湖倉體系的有利支撐。
2.保障數(shù)據(jù)安全,助力國產(chǎn)化替代。
數(shù)據(jù)已經(jīng)從資源化到資產(chǎn)化,到現(xiàn)在進入要素化時代。而數(shù)據(jù)安全是一項基礎(chǔ)保障,InfoMover實時采集同步可以構(gòu)建另類數(shù)據(jù)備份、容災(zāi)和遷移模式,保障數(shù)據(jù)安全,助力國產(chǎn)化替代。
典型案例
證券行業(yè)數(shù)據(jù)資源較豐富,并且業(yè)務(wù)發(fā)展中對數(shù)據(jù)的依賴程度也較高。隨著業(yè)務(wù)發(fā)展,證券公司逐步意識到大數(shù)據(jù)在企業(yè)戰(zhàn)略中的作用和地位,并在大數(shù)據(jù)應(yīng)用領(lǐng)域快速布局。作為未來業(yè)務(wù)發(fā)展的重要技術(shù)支撐手段,大數(shù)據(jù)技術(shù)、各應(yīng)用分析模型和算法等將逐漸走進證券公司各項日常運營活動中,凸顯“數(shù)據(jù)驅(qū)動業(yè)務(wù)”的重要地位。
廣發(fā)證券成立于1991年,是國內(nèi)首批綜合類證券公司,自1994年開始一直穩(wěn)居全國十大券商行列,是市場上具有較高影響力的證券公司之一。而隨著公司業(yè)務(wù)發(fā)展,各部門對實時數(shù)據(jù)訪問及計算的需求日漸增長,如日間客戶資產(chǎn)實時查詢、客戶交易實時提醒、開戶流失挽回、反洗錢及異常交易監(jiān)控等業(yè)務(wù)場景,均需實時計算能力支持。因此,為了滿足Level2行情,委托交易、APP行為埋點等業(yè)務(wù)的實時分析需求,急需借助實時數(shù)據(jù)分析技術(shù),及時洞察用戶旅程,獲取業(yè)務(wù)經(jīng)營動態(tài)與全貌。
針對廣發(fā)證券當(dāng)前現(xiàn)狀需求,睿帆科技擬通過建設(shè)實時數(shù)據(jù)平臺,基于自主研發(fā)的InfoMover為其搭建實時數(shù)據(jù)采集模塊,引入數(shù)據(jù)實時訪問及計算的能力,更好地支持業(yè)務(wù)發(fā)展。實時數(shù)據(jù)平臺建設(shè),以實時數(shù)據(jù)作業(yè)為核心,體系化覆蓋數(shù)據(jù)作業(yè)的配置、開發(fā)、管控等全流程功能。系統(tǒng)初步分為四個模塊,分別是數(shù)據(jù)實時數(shù)據(jù)采集模塊、實時數(shù)倉元數(shù)據(jù)管理模塊、實時作業(yè)開發(fā)模塊、實時作業(yè)運維管理模塊。
此次通過搭建實時數(shù)據(jù)平臺,幫助廣發(fā)證券全面提高數(shù)據(jù)敏捷應(yīng)用開發(fā)能力,快速滿足對海量數(shù)據(jù)的實時統(tǒng)計分析需求,使其在數(shù)據(jù)資產(chǎn)管理、運營管理、客戶服務(wù)等方面的效率得到快速提升。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )