国产 一极视频,国产精品 日韩无码 大秀视频,亚洲第一天堂m网站,精品久久久久中文字幕加勒比

數據脫敏產品應用價值差異與選型指標建議
2020-10-15 09:48:00 來源:本站 瀏覽:1140

數據安全正處于安全產業的風口,同時也是用戶和市場關注的焦點。數據脫敏,看似一個簡單易用千人一面的技術領域。但不同產品技術的性能表現和應用價值其實存在巨大差異。

隨著我國信息化建設的持續推進,政府、企業乃至個人對數據安全的認知與重視程度不斷提升。作為數據安全防護工作的重要一環,數據脫敏技術和產品已作為常規手段,在開發測試環境構建以及數據外發共享等典型場景中被廣泛普及應用。

而作為帶有日常工具屬性的數據安全產品,數據脫敏產品在幫助客戶滿足合規需求外,還要能夠切實解決客戶敏感數據在分發、遷移過程中的安全痛點,這點也尤為重要:

面對紛繁復雜業務系統數據,客戶需要從中自動、準確地識別出敏感數據,但由于業務系統中數據的復雜程度往往較高,對敏感數據的整理和判斷會占用大量的人工資源;而業務系統數據的存儲位置也不只是數據庫,還有大量的結構化導出及備份文件;這時如果缺乏足夠自動化、智能化的敏感數據發現手段,就很可能出現誤判、漏判等問題,從而導致數據在遷移過程中發生敏感數據泄露事件。

面對大規模數據脫敏場景,無論客戶選擇快速搭建1:1仿真測試環境,還是長期維持備份或開發、測試環境所需的實時數據,都對數據脫敏性能提出了較高的要求與挑戰。換言之,無論是全量脫敏還是增量脫敏,都可能需要產品能夠在數小時內處理完TB級別的數據,而且數據處理過程應盡量自動化、減少人工干預,以便融入真實場景的整個分發流程。

如果單純從“使用效果”來看,數據脫敏所要實現的不過是將用戶真實數據遷移至新環境中,并對敏感數據進行變形、遮蔽等處理,達到數據“敏感性降低、標識化消除”的目的。然而,上述貌似簡單明確的需求,如果沒有數據安全廠商專業、復雜的技術支撐,非但無法將安全和便捷帶給客戶,還會在項目交付實施等環節造成一系列問題和麻煩!下面,就讓我們針對那些貌似簡單的需求,看清其背后的產品、技術需求差異:

一、數據“敏感性識別”能力

針對目標環境中的敏感數據進行發現,是進行數據脫敏公認的前提。然而,對這項技術的應用除必須考察數據脫敏產品的“發現性能和準確度”外,在實際使用過程中還隱藏著對產品更多“深度能力”的要求,這些能力也將決定一款數據脫敏產品能否真正適用于真實復雜的場景:

1. 多種內容混合的字段脫敏

對于“由多種內容混合在一起”的字段,數據脫敏產品能否準確辨別其中每種數據的類型,同時給出類型占比以供使用者參考抉擇?

以個人信息收集場景為例,其中一個典型的內容就是需要有人填寫“聯系方式”字段。但是由于填寫人員對采集需求的理解不同,導致所填寫的信息可能會由手機號、座機號、地址等五花八門的“個人信息”構成。而這些信息會存儲在同一列中,如果單從數據特征入手,處理不善的話很容易將此字段當做非敏感字段被忽略掉。因此,一款成熟的數據脫敏產品的發現機制,不僅要能將上述字段準確識別為敏感數據字段,還要能根據采樣數據給出各類數據在此字段中的發現占比;此外,在之后的數據脫敏運算環節中,還應能夠根據每行數據的真正類型,對應地產生高度仿真的數據。

2. 無法判別敏感屬性的字段脫敏

對于“從數據特征上無法判別敏感屬性”的字段,在傳統數據脫敏產品的發現邏輯中往往容易被忽略,從而導致敏感數據的泄露;其實處理得當的話,此類數據是能夠進行識別的,可通過以下兩種方式進行:

其一,對屬于某種集合范圍內、能夠被枚舉概括的數據,可將這些集合全部列出作為數據字典保存;當遇到這類“落到字典中”的數據時,即可以此辨別其是否為敏感數據。例如:中國的省市區劃、企業和機構的行政部門、股票證券行業的上市公司代碼等,均可通過此類邏輯進行敏感數據發現。

其二,對字段命名具有特征的數據,可根據字段名稱特征嘗試進行敏感數據發現;通過這種發現方式得出的結果雖是基于猜測,但卻能縮減客戶大海撈針般的工作量。例如:保存有密碼的字段,單從數據內容特征上是很難辨別其敏感性的,但若根據字段的名稱,卻可利用一條“包含了PWD或PASSWORD等字符串的列名”作為此類數據的疑似判別依據。

此外,在實際使用場景中,敏感數據的載體除了常見的數據庫、結構化文件之外,還包含了保險行業大規模使用的xml保單文件;醫療行業常見的以html結構保存的病例、診療記錄以及用于臨床醫學的DICOM圖像格式文件。對這類文件中敏感信息的分析識別不僅要求產品能夠適應不同種類的文件格式,還要有更智能的詞法語義拆分、非結構化信息識別等能力。

二、數據脫敏“高度仿真”能力

“數據脫敏”,看上去是描述數據脫敏產品“最基礎能力”的詞語,但在差異化的使用場景下卻有著對其不同能力的要求;比如客戶對于脫敏后數據的“仿真”質量的要求,就會伴隨脫敏后數據的真實使用得以驗證,從而對數據脫敏產品的“高度仿真”能力提出了更多、更高的要求,往往由以下幾個難度層級構成:

1. 內容仿真

基礎的內容仿真,要求脫敏后數據從“數據類型、長度、格式、內在邏輯和語義”等特性上均與原始數據保持一致,不會對脫敏后數據的使用場景造成無法識別或產生歧義等問題。通常來說,市面上多數脫敏產品通過內置規則,針對身份證、姓名、銀行卡、手機號、地址等常見字段都能較好地滿足上述最基礎的仿真要求。但是,當客戶面對的是五花八門的使用場景時,想要實現脫敏后數據的“高度仿真”,就需要更加靈活的產品技術能力提供支撐。

例如:在某制造行業中,對于制成品的批次號需要進行脫敏,但批次號是由生產日期、車間號、流水線號和操作者相關信息共同組成的,這種行業級的數據顯然已超出一般數據脫敏產品內置規則的默認范圍,這時就需要安全廠商的數據脫敏產品能夠對數據按位數進行切分,并基于切分的結果對各段配置脫敏規則。比如:對于日期段,可采用標準的日期脫敏規則;對于車間號、流水線號這種有范圍的數據,要能基于數據字典進行脫敏;最終還要將各段組合成完整的脫敏后數據。

2. 區間、比例仿真

進階一步的數據仿真,除對內容進行仿真外,還要求脫敏后的整列數據能夠滿足某些特征,以避免這些脫敏后數據被分發到分析統計場景后,因為失真降低其實用性。

例如:金融行業客戶需要對儲戶的儲蓄金額進行分析,但若拿到的脫敏后數據與原始數據相差過大,將會導致統計分析結果大大失真,因而需要脫敏產品的算法能夠將金額數據劃分區間不長,并能以“就近隨機”的方式完成脫敏;而高校客戶在統計生源分布比例時,即便拿到的已是將“北京市脫敏成上海市,天津市脫敏成江西省”這樣的非真實數據,也還是希望“同一省市生源數據的比例”是不變的等等。

3. 關聯仿真

關聯仿真則是更進一步的數據仿真,要求脫敏后數據與其所在行的其他數據能夠保留一定的關聯關系或運算關系,例如:

當身份證號、出生日期、年齡三個字段出現在同一個表中,則天然存在“身份證中間8位數據與出生日期一致,且當前年份減去出生日期即為年齡”這一邏輯關系。在這種情況下,就要求脫敏后數據也要保持這種關聯關系,否則在分發到開發測試場景后極易造成業務系統出現邏輯異常;

而在制造行業,一張表中常存在“產品單價、折扣率、實際價格”三個字段,且存在“產品單價x折扣率 =   實際價格”這一邏輯關系。在這種情況下,如果對價格數據進行脫敏,那么要求脫敏后數據仍能保留上述運算關系,這就需要脫敏產品能夠通過表達式精確處理此類行業內特定的數據邏輯關系;

再以證券行業為例,同一張表內常存在“證券號碼、上市地區、企業名稱”等存在對應關系的數據,并且要求在對證券號碼或企業名稱進行脫敏后,三者的邏輯關系依然能夠對應。為此,脫敏產品需要能夠針對多列數據字典,實現精確且保障效率的關聯仿真脫敏運算。

綜上所述,想要真正做到以仿真數據滿足不同行業、不同場景下的客戶使用需求,并不是簡單一句“數據脫敏”所能概括的,其背后對廠商產品、技術有著更多、更高的要求與考驗。

三、“高性能”數據脫敏能力

“脫敏性能”是一個客戶極為關注的產品指標!在一些場景下,客戶需要執行“一次全量脫敏后每天增量脫敏”的數據處理邏輯,這就要求脫敏產品必須在規定時間內處理完前一天的增量數據,不然就會直接影響到脫敏目標環境中的數據一致性;而在另一些場景中,對數據脫敏的需求則處于“隨用隨做”的客觀節奏,且從數據脫敏需求被發出到完成數據脫敏環境的構建,留給相關人員的時間很可能是緊張的。無論面臨以上哪種場景,都對大批量數據的脫敏性能都不斷提出著新的要求與挑戰。而除常規的提升調度合理性及算法運算效率外,還有兩個關鍵因素也影響著數據脫敏效率的提升:

其一,是利用數據庫特性完成數據抽取與入庫邏輯。例如:以“數據庫并行加載機制或load機制”替換“通過JDBC讀寫數據”,這種方式會令數據脫敏產品的開發復雜程度大幅提升,但與此同時也會帶來大規模數據脫敏性能的提升。

其二,是數據脫敏產品能夠提供平行擴展的集群化部署運算能力,從而通過擴展運算節點的數量,成倍擴展數據脫敏產品的運算能力。

甘公網安備 62010002000517號

隴ICP備15001871號-1

聯系地址:甘肅省蘭州市城關區南濱河東路58號

?版權所有 2011-2020 甘肅安信信息安全技術有限公司

Copyright ? 2011-2020 Gansu Anxin information Safe Technology Ltd