EN-Cn

Home > About Us > 企業動态 > 公司新聞 > 基于CDM技術的敏捷數據管理實...

基于CDM技術的敏捷數據管理實踐分(fēn)享

Time:2022-06-22

光大(dà)證券 基礎數據管理團隊 孫偉、沈波


一(yī)、前言


近年來,證券業務快速發展,信息系統變更日益頻(pín)繁,敏捷開(kāi)發、快速叠代已經成爲支持業務創新的必要條件。數據庫作爲信息系統運行的重要支撐,數據準備和交付的自動化程度對系統開(kāi)發、測試效率有較大(dà)的影響。


二、測試數據準備遇到的困難


測試數據的準備通常包括數據庫備份、數據庫脫敏、數據庫恢複等幾大(dà)步驟。在備份環節,我(wǒ)司主要是利用數據庫自帶的備份功能進行數據庫物(wù)理和邏輯備份,并通過統一(yī)備份平台對備份文件進行備份。


根據測試實際需求,如需要真實數據,我(wǒ)們通常采用灰度環境,灰度環境的數據準備主要有兩種方式:直接采用實時備庫或者是采用與生(shēng)産隔離(lí)的數據庫。


兩種方式各有優劣,第一(yī)種方式的優點在于數據是實時和生(shēng)産庫同步,省去(qù)了數據導入的環節,而且對于某些數據庫如ORACLE DATAGUARD可以利Flashback功能在測試完成之後快速恢複與生(shēng)産的同步,缺點在于如DB2,SQLSERVER,MYSQL等數據庫并不支持一(yī)鍵恢複同步功能,往往需要重新恢複備庫以及和主庫同步關系;對于第二種方式顯著優點是在于與生(shēng)産環境隔離(lí),導入和恢複都不會影響到生(shēng)産環境,更加安全,但是往往時間需要更久,因爲包括了備份文件傳輸,數據導入,也犧牲了實時性。


如果數據到測試或者開(kāi)發環境,根據《證券期貨業信息系統運維管理規範》數據用于非生(shēng)産環境時,應進行脫敏處理。結合我(wǒ)司實際安全要求,脫敏工(gōng)作必須在進入測試或者開(kāi)發之前完成。對于全庫的數據準備步驟以及時間更加複雜(zá):

需要在脫敏區域對數據庫備份文件進行導入還原到脫敏區域;

通過脫敏工(gōng)具對該庫中(zhōng)的敏感數據進行脫敏;

重新進行全庫備份;

備份文件通過至少2次傳輸到達測試環境;

在測試環境進行全庫導入/還原。


整個過程經曆了2次備份,2次還原,至少2次傳輸操作,時間長且複雜(zá)度高,嚴重影響測試開(kāi)發環境數據準備。


除了影響測試數據的準備效率,我(wǒ)們還面臨另外(wài)一(yī)種場景,數據庫備份的定期驗證,定期驗證的重要性不言而喻,有多個案例表明在真正需要用到數據庫備份進行恢複時,發現備份文件不可用。尤其是對于一(yī)些穩态系統,由于日常叠代需求很低,如果不定期對數據庫備份進行驗證,一(yī)旦遇到需要數據庫恢複場景,很可能遭遇備份文件不可用局面。結合行業要求,我(wǒ)司每季度會對所有數據庫備份文件進行恢複驗證,由于數據庫種類繁多,數據量很大(dà),這個工(gōng)作需要耗費(fèi)大(dà)量的人力和時間。


基于以上遇到的問題,我(wǒ)們進行了市場調研,接觸到了一(yī)種基于CDM(Copy Data Management,數據副本管理)技術的敏捷數據管理平台,通過對該技術的運用,我(wǒ)們整合了CDM和脫敏相關工(gōng)具,實現了生(shēng)産到開(kāi)發測試環境的數據快速交付,以及實現了備份數據的自動化周期性的恢複校驗。


三、基于CDM技術實踐


CDM技術簡介


Gartner對CDM的定義是,它從生(shēng)産環境通過快照技術獲取有應用一(yī)緻性保證的數據,在非生(shēng)産存儲上生(shēng)成“黃金副本”(Golden Image),這個“黃金副本”數據格式是原始的磁盤格式,可再虛拟化成多個副本直接挂載給服務器,分(fēn)别用于備份恢複、容災或開(kāi)發測試等。


基于CDM技術的敏捷數據管理實踐


我(wǒ)們在調研市場後,發現當前主要存在以下(xià)三種CDM技術産品:

1、以存儲爲核心提供的CDM,雖然能夠提供快照和克隆功能,但很難實現跨異構存儲,構建企業級規則驅動的副本數據平台,并缺乏豐富的數據服務能力,無法提供自動化、自服務等功能。


2、塊級CDP技術提供的CDM功能,利用CDP技術所創建的副本數據,是一(yī)種磁盤快照技術,無法保證數據的一(yī)緻性,并且同一(yī)時間的磁盤快照隻能挂載一(yī)份,難以滿足多應用場景的數據需求。


3、端到端的CDM:把單純面向恢複的應用場景,變成了面向數據使用的應用場景,通過副本數據在各個業務環節的即時可用,爲更多業務場景提供數據支撐。


以存儲爲核心的CDM和塊級CDP提供的CDM功能,按照Gartner的定義,屬于“類”CDM。我(wǒ)們最終選擇了端到端的CDM技術産品,在生(shēng)産到灰度環境、生(shēng)産到開(kāi)發測試環境的數據快速交付,以及備份數據的自動恢複校驗三個應用場景。



圖1:整體(tǐ)業務架構拓撲



生(shēng)産到灰度環境的數據快速複制


利用CDM産品的數據庫虛拟化技術,通過一(yī)份數據副本,可快速創建出多個虛拟數據副本,這些虛拟數據副本幾乎不占用任何存儲空間,且整個發布動作可以分(fēn)鍾級完成。


1)具體(tǐ)流程:

對接生(shēng)産庫備庫,定時進行全量,增量備份,并實時備份獲取數據歸檔日志(zhì);


2)當需要數據時,将指定時間點的數據挂載發布到灰度環境(發布到灰度環境上數據不需要脫敏);


3)測試結束後,銷毀灰度數據庫。


生(shēng)産到開(kāi)發測試環境的數據快速複制


通過部署CDM方案,分(fēn)鍾内創建完成虛拟數據庫并調用脫敏系統對虛拟數據庫執行脫敏,脫敏後數據自動推送複制到中(zhōng)間網CDM,經過中(zhōng)間網CDM節點可将脫敏數據分(fēn)鍾級挂載發布到測試網,有效減少開(kāi)發測試場景中(zhōng)測試數據的準備時間,提高開(kāi)發測試環境搭建的效率。


(1)網絡說明

生(shēng)産網和測試網進行物(wù)理隔離(lí),生(shēng)産網和中(zhōng)間網、中(zhōng)間網和測試網分(fēn)别可點對點打通。


(2)開(kāi)發測試數據快速交付

1)在生(shēng)産網和中(zhōng)間網分(fēn)别部署CDM節點;

2)生(shēng)産數據脫敏在生(shēng)産網内完成;

3)生(shēng)産網CDM節點将脫敏後的數據推送到中(zhōng)間網CDM節點;

4)脫敏數據通過中(zhōng)間網挂載發布到測試網的開(kāi)發測試環境;

5)測試結束後,按策略定期銷毀數據。


(3)數據脫敏

部署CDM前的數據脫敏,需要分(fēn)别在生(shēng)産網和中(zhōng)間網各部署一(yī)套脫敏系統,生(shēng)産數據不能直接給到測試網,需要經曆從生(shēng)産網到中(zhōng)間網、從中(zhōng)間網到測試網的兩次數據抽取和脫敏,并且是面向整庫全量數據的抽取。

部署CDM後的數據脫敏,生(shēng)産網部署一(yī)套脫敏系統,将數據發布到生(shēng)産網的脫敏環境并執行脫敏任務後,脫敏數據利用CDM節點之間的遠程複制功能推送到中(zhōng)間網,并通過中(zhōng)間網挂載發布到測試網。


(4)測試數據版本管理

開(kāi)發測試環境在使用數據的過程中(zhōng)存在測試數據版本回退、新老版本并行測試等場景。通過CDM的虛拟數據庫版本管理機制,可以實現秒級版本回退操作,以及通過版本快照分(fēn)鍾級創建曆史版本數據環境,實現曆史環境、當前環境的新老版本并行對比測試。并且,使用中(zhōng)的虛拟數據庫可以實現秒級創建動态快照,虛拟數據庫可持續保持對外(wài)提供服務,不影響測試業務連接。



備份數據的自動校驗


校驗的主要目的是爲了定期檢驗備份文件有效性,保證在恢複和還原數據文件時的可用。


利用CDM對接我(wǒ)司統一(yī)備份平台,實現備份數據的自動化恢複校驗。定時抽取備份數據并自動進行有效性驗證,保證備份數據的可用。過去(qù),考慮到作業周期長,工(gōng)作量大(dà),備份數據校驗按季度來進行,在CDM方式下(xià)可縮短至按周進行。



四、結束語


通過CDM解決方案的實施,我(wǒ)們實現了一(yī)個平台、一(yī)站式解決數據獲取,數據存儲,數據構建,數據使用,數據銷毀,在保證合規性基礎上,以敏捷的數據全生(shēng)命周期管理,更好地實現數據共享和數據利用。

Share:
×
Privacy
×

此處放(fàng)标題

内容暫無















FREE TELL:400-880-5062
電(diàn)話(huà):86-21-51905999
傳真:86-21-51905959
郵編:201203
地址:上海市浦東新區張江高科技園區郭守敬路498号20号樓
I agree