隨著5G、大數(shù)據(jù)、工業(yè)互聯(lián)網(wǎng)、產(chǎn)業(yè)互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、數(shù)字經(jīng)濟、數(shù)字產(chǎn)業(yè)化的推進,數(shù)據(jù)正變得越來越大,越來越多。“數(shù)據(jù)安全”成了一個重要的詞活躍在行業(yè)以及社會大眾的面前,各項法律法規(guī)的頒布,對企業(yè)數(shù)據(jù)安全的合規(guī)提出了更高更嚴格的標準。
國內(nèi)某銀行高達1679萬條數(shù)據(jù)泄露
2021年1月8日,有人在某國外論壇中發(fā)帖售賣國內(nèi)某銀行1679萬筆數(shù)據(jù),并放出部分數(shù)據(jù)樣本,數(shù)據(jù)包括名字、性別、卡號、身份證號、手機號碼 、所在城市、聯(lián)系地址、工作單位、郵編 、工作電話、住宅電話、卡種、發(fā)卡行等等。
2021年1月29日,江蘇鎮(zhèn)江丹陽警方成功偵破一起公安部督辦的侵犯公民個人信息案,涉及10多個省市,抓獲犯罪嫌疑人30名。由于該案件侵犯對象廣,犯罪嫌疑人摒棄傳統(tǒng)的網(wǎng)絡(luò)通訊工具和銀行卡轉(zhuǎn)賬的收付款方式,采用境外聊天工具和區(qū)塊鏈虛擬貨幣,犯罪手段新穎,社會危害嚴重,該案被公安部掛牌督辦。
2021年6月17日,商丘市睢陽區(qū)人民法院 6 月 3 日在裁判文書網(wǎng)公開的刑事判決書顯示,兩名犯罪分子在淘寶爬取并盜走大量數(shù)據(jù)。經(jīng)過檢方核實,被盜取的淘寶用戶數(shù)據(jù) 近 12 億條。淘寶去年 8 月 14 日報警,有黑產(chǎn)人員通過接口,繞過平臺風控,批量爬取數(shù)據(jù),爬取內(nèi)容包括買家 UID、淘寶昵稱、用戶手機號等敏感信息。淘寶在一份聲明中表示,沒有用戶資訊被賣給第三方,也沒有發(fā)生經(jīng)濟損失。法院裁定,這家公司一名員工收集超過 10 億條淘寶用戶資訊,雖然是用以為客戶提供服務(wù),但該員工及其雇主判處三年以上監(jiān)禁,并處以總計 45 萬元人民幣的罰款。
作為數(shù)據(jù)安全防護工作的重要一環(huán),數(shù)據(jù)脫敏技術(shù)和產(chǎn)品已作為常規(guī)手段,在開發(fā)測試環(huán)境構(gòu)建以及數(shù)據(jù)外發(fā)共享等典型場景中被廣泛普及應(yīng)用。將數(shù)據(jù)庫進行脫敏處理,才能夠有效地避免數(shù)據(jù)庫內(nèi)容泄露。
所謂的數(shù)據(jù)脫敏,是指在不影響數(shù)據(jù)分析結(jié)果的準確性前提下,對原始數(shù)據(jù)中的敏感字段進行處理,從而降低數(shù)據(jù)敏感度和減少個人隱私風險的技術(shù)措施。
是指通過對個人信息的技術(shù)處理,使得在不借助額外信息的情況下,無法識別個人信息主體。
是指通過對個人信息的技術(shù)處理,使得個人信息主體無法被識別或關(guān)聯(lián),且處理后的信息不能被還原的過程。
如果單純從“使用效果”來看,數(shù)據(jù)脫敏所要實現(xiàn)的不過是將用戶真實數(shù)據(jù)遷移至新環(huán)境中,并對敏感數(shù)據(jù)進行變形、遮蔽等處理,達到數(shù)據(jù)“敏感性降低、標識化消除”的目的。然而,上述貌似簡單明確的需求,如果沒有專業(yè)、復(fù)雜的技術(shù)支撐,非但無法將安全和便捷帶給客戶,還會在項目交付實施等環(huán)節(jié)造成一系列問題和麻煩!透過一系列典型數(shù)據(jù)脫敏需求,可以看清其背后的產(chǎn)品功能與技術(shù)能力差異。
差異一、敏感數(shù)據(jù)發(fā)現(xiàn)與“精確”敏感數(shù)據(jù)發(fā)現(xiàn)
針對目標環(huán)境中的敏感數(shù)據(jù)進行發(fā)現(xiàn),是進行數(shù)據(jù)脫敏公認的前提。然而,對這項技術(shù)的應(yīng)用除必須考察數(shù)據(jù)脫敏產(chǎn)品的“發(fā)現(xiàn)性能和準確度”外,在實際使用過程中還隱藏著對產(chǎn)品更多“深度能力”的要求,這些能力將決定一款數(shù)據(jù)脫敏產(chǎn)品能否真正適用于真實復(fù)雜的場景。
對于“由多種內(nèi)容混合在一起“的字段,數(shù)據(jù)脫敏產(chǎn)品能否準確辨別其中每種數(shù)據(jù)的類型,同時給出類型占比以供使用者參考抉擇?
對于“從數(shù)據(jù)特征上無法判別敏感屬性”的字段,在傳統(tǒng)數(shù)據(jù)脫敏產(chǎn)品的發(fā)現(xiàn)邏輯中往往容易被忽略,從而導(dǎo)致敏感數(shù)據(jù)的泄露。
差異二、數(shù)據(jù)脫敏與“高度仿真”數(shù)據(jù)脫敏
數(shù)據(jù)脫敏,看似是描述相關(guān)產(chǎn)品“最基礎(chǔ)能力”的詞語,但在差異化使用場景下卻對其有著不同能力的要求;比如客戶對脫敏后數(shù)據(jù)”仿真”質(zhì)量的要求,就會隨著脫敏后數(shù)據(jù)的實際使用得到驗證,從而對數(shù)據(jù)脫敏產(chǎn)品的“高度仿真”能力提出更多、更高的要求,往往由以下幾個難度層級構(gòu)成:
基礎(chǔ)的內(nèi)容仿真,要求脫敏后數(shù)據(jù)從“數(shù)據(jù)類型、長度、格式、內(nèi)在邏輯和語義”等特性上均與原始數(shù)據(jù)保持一致,不會對脫敏后數(shù)據(jù)的使用場景造成無法識別或產(chǎn)生歧義等問題。通常來說,市面上多數(shù)脫敏產(chǎn)品通過內(nèi)置規(guī)則,可針對身份證、姓名、銀行卡、手機號、地址等常見字段實現(xiàn)上述最基礎(chǔ)的仿真要求。但當客戶面對五花八門的使用場景時,想要實現(xiàn)脫敏后數(shù)據(jù)的“高度仿真”,就需要更加靈活的產(chǎn)品技術(shù)能力提供支撐。
進階一步的數(shù)據(jù)仿真,除對內(nèi)容進行仿真外,還要求脫敏后的整列數(shù)據(jù)能夠滿足某些特征,以避免這些脫敏后數(shù)據(jù)被分發(fā)到分析統(tǒng)計場景后,因為失真降低其實用性。
關(guān)聯(lián)仿真則是更進一步的數(shù)據(jù)仿真,要求脫敏后數(shù)據(jù)與其所在行的其他數(shù)據(jù)能夠保留一定的關(guān)聯(lián)關(guān)系或運算關(guān)系。
脫敏性能,是客戶極為關(guān)注的產(chǎn)品指標!在一些場景下,客戶需要執(zhí)行“一次全量脫敏后每天增量脫敏”的數(shù)據(jù)處理邏輯,這就要求脫敏產(chǎn)品必須在規(guī)定時間內(nèi)處理完前一天的增量數(shù)據(jù),不然就會直接影響到脫敏目標環(huán)境中的數(shù)據(jù)一致性;而在另一些場景中,對數(shù)據(jù)脫敏的需求則處于“隨用隨做”的節(jié)奏,且從數(shù)據(jù)脫敏需求被發(fā)出到完成數(shù)據(jù)脫敏環(huán)境的構(gòu)建,留給相關(guān)人員的時間很可能十分緊張。無論面臨以上哪種場景,都對大批量數(shù)據(jù)的脫敏性能提出著新的要求與挑戰(zhàn)。
{靜態(tài)數(shù)據(jù)脫敏系統(tǒng)}靜態(tài)數(shù)據(jù)脫敏系統(tǒng)(簡稱:SDMS)服務(wù)于系統(tǒng)測試、業(yè)務(wù)培訓(xùn)、數(shù)據(jù)分發(fā)等業(yè)務(wù)場景,是信創(chuàng)技術(shù)產(chǎn)業(yè)體系建設(shè)和發(fā)展不可或缺的一個重要環(huán)節(jié)。自發(fā)布問世以來,產(chǎn)品服務(wù)及解決方案已覆蓋政務(wù)、金融、能源、運營商、教育、醫(yī)療等多個行業(yè)領(lǐng)域,極大化滿足各行業(yè)需求,為用戶帶來了優(yōu)質(zhì)的產(chǎn)品服務(wù)。目前, SDMS在“自動識別敏感數(shù)據(jù)——豐富的脫敏算法配置——仿真脫敏保值致用——跨網(wǎng)跨域安全分發(fā)”的完整鏈路能力基礎(chǔ)上實現(xiàn)多方位升級,正式推出靜態(tài)數(shù)據(jù)脫敏系統(tǒng)全新版本。
數(shù)據(jù)庫支持類型擴充:
實現(xiàn)了對國產(chǎn)化數(shù)據(jù)庫,包括但不限于:巨衫數(shù)據(jù)庫 SequoiaDB、華為高斯數(shù)據(jù)庫OpenGauss、中興通訊GoldenDB等數(shù)據(jù)庫的脫敏能力支持。
脫敏算法優(yōu)化更新:
針對更加繁雜模糊的數(shù)據(jù)類別、似是而非的數(shù)據(jù)特征、參差不齊的數(shù)據(jù)質(zhì)量等情況,對部分脫敏算法進行了優(yōu)化更新。在增加敏感數(shù)據(jù)識別的準確性的同時,提高了脫敏算法混合配置的容易性。
脫敏任務(wù)處理能力升級:
通過配置閾值和彈窗提示的方式提高了任務(wù)執(zhí)行的流暢度和異常處理的敏捷度。后續(xù)將持續(xù)擴展短信提示、郵件提示的能力,實現(xiàn)任務(wù)隨時隨地盡在掌握之中。
系統(tǒng)運維及使用體驗提升:
重構(gòu)了維護平臺,包括:服務(wù)配置、系統(tǒng)工具、DC工具、JVM 工具、日志分析、版本維護等功能的優(yōu)化升級。
掌握敏感數(shù)據(jù)分布:
準確、高效、完整的敏感數(shù)據(jù)發(fā)現(xiàn)為用戶安全地執(zhí)行數(shù)據(jù)分發(fā)、共享工作提供前提和保障。
提高數(shù)據(jù)脫敏效率:
界面簡單易操作,可以自動識別敏感數(shù)據(jù),并根據(jù)敏感數(shù)據(jù)的類型使用不同的脫敏算法,同時支持配置定時任務(wù),自動化完成脫敏。
保證數(shù)據(jù)脫敏有效:
有效保障脫敏后數(shù)據(jù)的高仿真度和合法性,使其滿足原始數(shù)據(jù)的業(yè)務(wù)規(guī)則,能夠代表實際的業(yè)務(wù)屬性,為數(shù)據(jù)使用者帶來真實有效的數(shù)據(jù)體驗。
規(guī)范數(shù)據(jù)共享流程:
有效管理敏感數(shù)據(jù)申請和外發(fā)流程,完整記錄數(shù)據(jù)使用過程,大幅降低數(shù)據(jù)泄露風險,使安全追溯有據(jù)可查。
數(shù)據(jù)脫敏是大數(shù)據(jù)時代企業(yè)數(shù)據(jù)化運行治理的必要安全機制,在迎接信創(chuàng)產(chǎn)業(yè)新發(fā)展機遇的同時,靜態(tài)數(shù)據(jù)脫敏系統(tǒng)將不斷用對產(chǎn)品的迭代演進、對技術(shù)的精益求精、對設(shè)計的不斷完善,持續(xù)創(chuàng)新與發(fā)展,憑借靈活的部署方式、高效的脫敏能力、穩(wěn)定的運行效果贏取更多用戶的信賴,在科技革新的時代浪潮中接受愈加嚴苛的市場檢驗。