在大數據環境下,各行業和領域的安全需求正在發生改變,從數據采集、數據整合、數據提煉、數據挖掘到數據發布,這一流程已經形成新的完整鏈條。隨著數據的進一步集中和數據量的增大,對產業鏈中的數據進行安全防護變得更加困難。同時,數據的分布式、協作式、開放式處理也加大了數據泄露的風險,在大數據的應用過程中,如何確保用戶及自身信息資源不被泄露將在很長一段時間都是企業重點考慮的問題。然而,現有的信息安全手段已不能滿足大數據時代的信息安全要求,安全威脅將逐漸成為制約大數據技術發展的瓶頸。下面介紹大數據面臨的安全威脅。
一、大數據基礎設施安全威脅
大數據基礎設施包括存儲設備、運算設備、一體機和其他基礎軟件(如虛擬化軟件)等。為了支持大數據的應用,需要創建支持大數據環境的基礎設施。例如,需要高速的網絡來收集各種數據源,大規模的存儲設備對海量數據進行存儲,還需要各種服務器和計算設備對數據進行分析與應用,并且這些基礎設施帶有虛擬化和分布式性質等特點。這些基礎設施給用戶帶來各種大數據新應用的同時,也會遭受到安全威脅。
非授權訪問,即沒有預先經過同意,就使用網絡或計算機資源。例如,有意避開系統訪問控制機制,對網絡設備及資源進行非正常使用,或擅自擴大使用權限,越權訪問信息。主要形式有假冒、身份攻擊、非法用戶進入網絡系統進行違法操作,以及合法用戶以未授權方式進行操作等。
信息泄露或丟失,包括數據在傳輸中泄漏或丟失(例如,利用電磁泄漏或搭線竊聽方式截獲機密信息,或通過對信息流向、流量、通信頻度和長度等參數的分析,竊取有用信息等)、在存儲介質中丟失或泄漏,以及“黑客”通過建立隱蔽隧道竊取敏感信息等。
網絡基礎設施傳輸過程中破壞數據完整性。大數據采用的分布式和虛擬化架構,意味著比傳統的基礎設施有更多的數據傳輸,大量數據在一個共享的系統里被集成和復制,當加密強度不夠的數據在傳輸時,攻擊者能通過實施嗅探、中間人攻擊、重放攻擊來竊取或篡改數據。
拒絕服務攻擊,即通過對網絡服務系統的不斷干擾,改變其正常的作業流程或執行無關程序,導致系統響應遲緩,影響合法用戶的正常使用,甚至使合法用戶遭到排斥,不能得到相應的服務。
網絡病毒傳播,即通過信息網絡傳播計算機病毒。針對虛擬化技術的安全漏洞攻擊,黑客可利用虛擬機管理系統自身的漏洞,入侵到宿主機或同個宿主機上的其他虛擬機。
二、大數據存儲安全威脅
大數據規模的爆發性增長,對存儲架構產生新的需求,大數據分析應用需求也在推動著IT技術以及計算技術的發展。大數據的規模通常可達到PB量級,結構化數據和非結構化數據混雜其中,數據的來源多種多樣,傳統結構化存儲系統已經無法滿足大數據應用的需要,因此,需要采用面向大數據處理的存儲系統架構。大數據存儲系統要有強大的擴展能力,可以通過增加模塊或磁盤存儲來增加容量;大數據存儲系統的擴展要操作簡便快速,操作甚至不需要停機。在此種背景下,Scale-out架構越來越受到青睞。Scale-out是指根據需求增加不同的服務器和存儲應用,依靠多部服務器、存儲協同運算、負載平衡及容錯等功能來提高運算能力及可靠度。與傳統存儲系統的煙囪式架構完全不同,Scale-out架構可以實現無縫平滑的擴展,避免產生“存儲孤島”。
在傳統的數據安全中,數據存儲是非法入侵的最后環節,目前已形成完善的安全防護體系。大數據對存儲的需求主要體現在海量數據處理、大規模集群管理、低延遲讀寫速度和較低的建設及運營成本方面。大數據時代的數據非常的繁雜,其數據量非常的驚人,保證這些信息數據在有效利用之前的安全是一個重要話題。在數據應用的生命周期中,數據存儲是一個關鍵環節,數據停留在此階段的時間最長。目前,可采用關系型(SQL)數據庫和非關系型(NOSQL,not only SQL)數據庫進行存儲。現階段,大多數的企業采用非關系型數據庫存儲大數據。
1、關系型數據庫存儲安全
關系型分布式數據庫的理論基礎是ACID(atomicity、consistency、isolation、durability,原子性、一致性、隔離性、持久性)模型。事務的原子性是指事務中包含的所有操作要么全做,要么全不做。一致性是指在事務開始之前,數據庫處于一致性的狀態,事務結束后,數據庫也必須處于一致性狀態。事務隔離性要求系統必須保證事務不受其他并發執行的事務影響。例如對于任何一對事務 T1 和T2,在事務T1看來,T2要么在T1開始之前已經結束,要么在T1完成之后才開始執行。而持久性是指一個事務一旦成功完成,它對數據庫的改變必須是永久的,即便是在系統遇到故障的情況下也不會丟失。數據的重要性決定了事務持久性的重要性。
通過SQL數據庫的ACID模型可以知道,傳統的關系型數據庫雖然因為通用性設計帶來了性能上的限制,但可以通過集群提供較強的橫向擴展能力。關系型數據庫的優點除了較強的并發讀寫能力,數據強一致性保障,很強的結構化查詢與復雜分析能力和標準的數據訪問接口外,還包括如下優點。
● 操作方便:關系型數據庫通過應用程序和后臺連接,方便用戶對數據的操作。
● 易于維護:關系型數據庫具有非常好的完整性,包括實體完整性、參照完整性和用戶定義完整性,大大降低了數據冗余和數據不一致的概率。
● 便于訪問數據:關系型數據庫提供了諸如視圖、存儲過程、觸發器、索引等對象。
● 更安全便捷:關系型數據庫的權限分配和管理,使其較以往的數據庫在安全性上要高很多。
通常,數據結構化對于數據庫開發和數據防護有著非常重要的作用。結構化的數據便于管理、加密、處理和分類,能夠有效地智能分辨非法入侵數據,數據結構化雖然不能夠徹底避免數據安全風險,但是能夠加快數據安全防護的效果。
關系型數據庫所具有的ACID特性保證了數據庫交易的可靠處理。關系型數據庫通過集成的安全功能保證數據的機密性、完整性和可用性,例如基于角色的權限控制、數據加密機制、支持行和列訪問控制等。
關系型數據庫也存在很多瓶頸,包括不能有效地處理多維數據,不能有效處理半結構化和非結構化的海量數據,高并發讀寫性能低,支撐容量有限,數據庫的可擴展性和可用性低,建設和運維成本高等。
2、非關系型數據庫存儲安全
由于大數據具備數據量大、多數據類型、增長速度快和價值密度低的特點,采用傳統關系型數據庫管理技術往往面臨成本支出過多、擴展性差、數據快速查詢困難等問題。對于占數據總量80%以上的非結構化數據,通常采用NoSQL(not only SQL)技術完成對大數據的存儲、管理和處理。NoSQL 指的是非關系型數據庫,包含大量不同類型結構化數據和非結構化數據的數據存儲。和關系型分布式數據庫的ACID理論基礎相對,非關系型數據庫的理論基礎是BASE模型。BASE來自于互聯網電子商務領域的實踐,它是基于CAP理論逐步演化而來,核心思想是即便不能達到強一致性(strong consistency),但可以根據應用特點采用適當的方式來達到最終一致性(eventual consistency)的效果。BASE 是 basically available、soft state、eventually consistent 3個詞組的簡寫,是對CAP中CA應用的延伸。BASE的含義包括:basically available(基本可用);soft state(軟狀態/柔性事務),即狀態可以有一段時間的不同步;eventual consistency(最終一致性)。BASE 是反 ACID的,它完全不同于ACID模型,犧牲強一致性,獲得基本可用性和柔性可靠性性能,并要求達到最終一致性。
從 NoSQL 的理論基礎可以知道,由于數據多樣性,非關系數據并不是通過標準SQL語言進行訪問的。NoSQL數據存儲方法的主要優點是數據的可擴展性和可用性、數據存儲的靈活性。每個數據的鏡像都存儲在不同地點以確保數據可用性。NoSQL的不足之處為在數據一致性方面需要應用層保障,結構化查詢統計能力也較弱。
NoSQL帶來以下安全挑戰。
(1)模式成熟度不夠。目前的標準SQL技術包括嚴格的訪問控制和隱私管理工具,而在NoSQL模式中,并沒有這樣的要求。事實上,NoSQL無法沿用SQL的模式,它應該有自己的新模式。例如,與傳統SQL數據存儲相比,在NoSQL數據存儲中,列和行級的安全性更為重要。此外,NoSQL允許不斷對數據記錄添加屬性,需要為這些新屬性定義安全策略。
(2)系統成熟度不夠。在飽受各種安全問題的困擾后,關系型數據庫和文件服務器系統的安全機制已經變得比較成熟。雖然 NoSQL 可以從關系型數據庫安全設計中學習經驗教訓,但至少在幾年內NoSQL仍然會存在各種漏洞。
(3)客戶端軟件問題。由于NoSQL服務器軟件沒有內置足夠的安全機制,因此,必須對訪問這些軟件的客戶端應用程序提供安全措施,這樣又會產生其他問題。
● 身份驗證和授權功能。該安全措施使應用程序更復雜。例如,應用程序需要定義用戶和角色,并且需要決定是否向用戶授權訪問權限。
● SQL 注入問題。困擾著關系型數據庫應用程序的問題又繼續困擾 NoSQL數據庫。例如,在 2011 年的 Black Hat 會議上,研究人員展示了黑客如何利用“NoSQL注入”來訪問受限制的信息。
● 代碼容易產生漏洞。市面上有很多 NoSQL 產品和應用程序,應用程序越多,產生漏洞就越多。
(4)數據冗余和分散性問題。關系型數據庫通常在相同位置存儲數據。但大數據系統完全采用另外一種模式,將數據分散在不同地理位置、不同服務器中,以實現數據的優化查詢處理及容災備份。這種情況下,難以定位這些數據并進行保護。
非關系型數據的優勢是擴展簡單、讀寫快速和成本低廉,但存在很多劣勢,例如不提供對SQL的支持,產品不夠成熟,很難實現數據的完整性,缺乏強有力的技術支持等。因此開源數據庫從出現到用戶接受需要一個漫長的過程。
三、大數據網絡安全威脅
互聯網及移動互聯網的快速發展不斷地改變人們的工作、生活方式,同時也帶來嚴重的安全威脅。網絡面臨的風險可分為廣度風險和深度風險。廣度風險是指安全問題隨網絡節點數量的增加呈指數級上升。深度風險是指傳統攻擊依然存在且手段多樣;APT(高級持續性威脅)攻擊逐漸增多且造成的損失不斷增大;攻擊者的工具和手段呈現平臺化、集成化和自動化的特點,具有更強的隱蔽性、更長的攻擊與潛伏時間、更加明確和特定的攻擊目標。結合廣度風險與深度風險,大規模網絡主要面臨的問題包括:安全數據規模巨大;安全事件難以發現;安全的整體狀況無法描述;安全態勢難以感知等。
通過上述分析,網絡安全是大數據安全防護的重要內容。現有的安全機制對大數據環境下的網絡安全防護并不完美。一方面,大數據時代的信息爆炸,導致來自網絡的非法入侵次數急劇增長,網絡防御形勢十分嚴峻。另一方面,由于攻擊技術的不斷成熟,現在的網絡攻擊手段越來越難以辨識,給現有的數據防護機制帶來了巨大的壓力。因此對于大型網絡,在網絡安全層面,除了訪問控制、入侵檢測、身份識別等基礎防御手段,還需要管理人員能夠及時感知網絡中的異常事件與整體安全態勢,從成千上萬的安全事件和日志中找到最有價值、最需要處理和解決的安全問題,從而保障網絡的安全狀態。
四、大數據帶來隱私問題
大數據通常包含了大量的用戶身份信息、屬性信息、行為信息,在大數據應用的各階段內,如果不能保護好大數據,極易造成用戶隱私泄露。此外,大數據的多源性,使得來自各個渠道的數據可以用來進行交叉檢驗。過去,一些擁有數據的企業經常提供經過簡單匿名化的數據作為公開的測試集,在大數據環境下,多源交叉驗證有可能發現匿名化數據后面的真實用戶,同樣會導致隱私泄露。
隱私泄露成為大數據必須要面對且急需解決的問題。大數據時代,現有的隱私保護技術手段還不夠完善,除了要建立健全個人隱私保護的法律法規和基本規則之外,還應鼓勵隱私保護技術的研發、創新和使用,從技術層面來保障隱私安全,完善用戶保障體系。此外,推動大數據產品在個人隱私安全方面標準的制定,提倡行業在用戶隱私保護領域自律,并制定相應的行業標準或公約。
1、大數據中的隱私泄露
傳統數據安全往往是圍繞數據生命周期來部署的,即數據的產生、存儲、使用和銷毀。隨著大數據應用越來越多,數據的擁有者和管理者相分離,原來的數據生命周期逐漸轉變成數據的產生、傳輸、存儲和使用。由于大數據的規模沒有上限,且許多數據的生命周期極為短暫,因此,常規安全產品要想繼續發揮作用,則需要解決如何根據數據存儲和處理的動態化、并行化特征,動態跟蹤數據邊界,管理對數據的操作行為等。
大數據中的隱私泄露有以下表現形式。
(1)在數據存儲的過程中對用戶隱私權造成的侵犯。大數據中用戶無法知道數據確切的存放位置,用戶對其個人數據的采集、存儲、使用、分享無法有效控制。
(2)在數據傳輸的過程中對用戶隱私權造成的侵犯。大數據環境下數據傳輸將更為開放和多元化,傳統物理區域隔離的方法無法有效保證遠距離傳輸的安全性,電磁泄漏和竊聽將成為更加突出的安全威脅。
(3)在數據處理的過程中對用戶隱私權造成的侵犯。大數據環境下可能部署大量的虛擬技術,基礎設施的脆弱性和加密措施的失效可能產生新的安全風險。大規模的數據處理需要完備的訪問控制和身份認證管理,以避免未經授權的數據訪問,但資源動態共享的模式無疑增加了這種管理的難度,賬戶劫持、攻擊、身份偽裝、認證失效、密鑰丟失等都可能威脅用戶數據安全。
2、法律和監管
海量數據的匯集加大了國家、企業機密信息泄露的可能性,對大數據的無序使用也增加了敏感信息泄露的危險。在政府層面,建議明確重點領域數據庫范圍,制定完善的重點領域數據庫管理和安全操作制度,加強日常監管。在企業層面,需要加強企業內部管理,制定設備特別是移動設備安全使用規程,規范大數據的使用方法和流程。
五、針對大數據的高級持續性攻擊
美國國家標準和技術研究院對APT給出了詳細定義:“精通復雜技術的攻擊者利用多種攻擊向量(如網絡、物理和欺詐)借助豐富資源創建機會實現自己目的。”這些目的通常包括對目標企業的信息技術架構進行篡改從而盜取數據(如將數據從內網輸送到外網),執行或阻止一項任務、程序;又或者潛入對方架構中伺機偷取數據。
APT的威脅主要包括:
(1)長時間重復這種操作;
(2)適應防御者從而產生抵抗能力;
(3)維持在所需的互動水平以執行偷取信息的操作。
簡言之,APT就是長時間竊取數據。作為一種有目標、有組織的攻擊方式, APT在流程上同普通攻擊行為并無明顯區別,但在具體攻擊步驟上,APT體現出以下特點,使其具備更強的破壞性。
(1)攻擊行為特征難以提取:APT普遍采用0day漏洞獲取權限,通過未知木馬進行遠程控制。
(2)單點隱蔽能力強:為了躲避傳統檢測設備,APT 更加注重動態行為和靜態文件的隱蔽性。
(3)攻擊渠道多樣化:目前被曝光的知名APT事件中,社交攻擊、0day漏洞利用、物理擺渡等方式層出不窮。
(4)攻擊持續時間長:APT 攻擊分為多個步驟,從最初的信息搜集到信息竊取并外傳往往要經歷幾個月甚至更長的時間。
在新形勢下,APT可能將大數據作為主要攻擊目標,APT攻擊的上述特點使得傳統以實時檢測、實時阻斷為主體的防御方式難以有效發揮作用。在同APT的對抗中,必須轉換思路,采取新的檢測方式,以應對新挑戰。
六、其他安全威脅
大數據除了在基礎設施、存儲、網絡、隱私等方面面臨上述安全威脅外,還包括如下幾方面
(1)網絡化社會使大數據易成為攻擊目標
論壇、博客、微博、社交網絡、視頻網站為代表的新媒體形式促成網絡化社會的形成,在網絡化社會中,信息的價值要超過基礎設施的價值,極容易吸引黑客的攻擊。另一方面,網絡化社會中大數據蘊涵著人與人之間的關系與聯系,使得黑客成功攻擊一次就能獲得更多數據,無形中降低了黑客的進攻成本,增加了攻擊收益。近年來在互聯網上發生用戶賬號的信息失竊等連鎖反應可以看出,大數據更容易吸引黑客,而且一旦遭受攻擊,造成損失十分驚人。
(2)大數據濫用風險
計算機網絡技術和人工智能的發展,為大數據自動收集以及智能動態分析提供方便。但是,大數據技術被濫用或者誤用也會帶來安全風險。一方面,大數據本身的安全防護存在漏洞。對大數據的安全控制力度仍然不夠,API 訪問權限控制以及密鑰生成、存儲和管理方面的不足都可能造成數據泄漏。另一方面,攻擊者也在利用大數據技術進行攻擊。例如,黑客能夠利用大數據技術最大限度地收集更多用戶敏感信息。
(3)大數據誤用風險
大數據的準確性、數據質量以及使用大數據做出的決定可能會產生影響。例如,從社交媒體獲取個人信息的準確性,基本的個人資料例如年齡、婚姻狀況、教育或者就業情況等通常都是未經驗證的,分析結果可信度不高。另一個是數據的質量,從公眾渠道收集到的信息,可能與需求相關度較小。這些數據的價值密度較低,如果對其進行分析和使用可能產生無效的結果,從而導致錯誤的決策。
七、結語
大數據的核心價值在于從海量的復雜數據中挖掘出有價值的信息,通過大數據技術進行更快的分析、更準確的預測,從而構建一個以數據為中心的社會。但是,大數據的新特征對傳統的基礎設施、存儲、網絡、信息資源等都提出了更高的安全要求。
聯系地址:甘肅省蘭州市城關區南濱河東路58號
?版權所有 2011-2020 甘肅安信信息安全技術有限公司
Copyright ? 2011-2020 Gansu Anxin information Safe Technology Ltd