工業物聯網,車聯網和實時欺詐風控的需求正在飛速發展,越來越多的企業新應用需要的是快速響應客戶需求,并同時學習和適應不斷變化的行為模式。同時,隨著5G網絡、容器云、高性能存儲硬件水平的不斷提高,數據增長進入了空前的發展階段。
和以往不同的是,無處不在的物聯網、自動駕駛汽車等邊緣計算所產生的數據源源不斷,就像開著的水管,數據源一直在流出。
目前大數據處理平臺最常見的Lambda架構,它的優勢在于滿足了實時處理與批處理需求,但是,從存儲的角度看其缺點也很明顯,可以總結為如下三點:①實時處理、批處理不統一,不同的處理路徑采用了不同的存儲組件,增加了系統的復雜度,導致了開發人員的額外學習成本和工作量。
數據存儲多組件化、多份化,同樣的數據會被存儲在Elastic Search 、S3對象存儲系統、Kafka等多種異構的系統中,而且考慮到數據的可靠性,數據還都是多份冗余的,這就極大的增加了用戶的存儲成本。而往往對于企業用戶來說,0.1%的存儲冗余都意味著損失。
系統里存儲的組件太多太復雜,也增加了使用的運維成本。并且大部分現有的開源項目還處于“強運維”的產品階段,對于企業用戶來說又是很大的開銷。
每種類型的數據都有其原生的屬性和常用訪問模式,對應有最佳的適用場景以及最合適的存儲系統。為了解決如上提出的三個問題:降低開發成本、減少存儲成本與減少運維成本,自然也就需要新的存儲類型。在這里,我們將從最新的數據類型出發,探討5G時代下數據存儲新思路。
計算是原生的流計算,而存儲卻不是原生的流存儲。從存儲的視角來說,存儲架構的設計需要首先明確所存儲的數據的特點。在物聯網、自動駕駛汽車、金融等實時應用場景中,所需要存儲的數據一般被稱之為“流數據”,流數據一般被定義為:流數據是一組順序、大量、快速、連續到達的數據序列,一般情況下,數據流可被視為一個隨時間延續而無限增長的動態數據集合。
我們將流數據定義為第四種數據類型,傳統數據庫這類基于事務的程序適合采用塊存儲系統。文件共享場景下需要在用戶間共享文件進行讀寫操作,因此適合采用分布式文件 (NAS) 存儲系統。而需要無限擴展并支持REST接口讀寫的非結構化的的圖像/音視頻文件則非常適合采用對象存儲系統。
(本文轉載電子發燒友網,如有侵權,請聯系刪除)