hadoop3重要新特性——擦除編碼解釋

2024-06-28 16:00:07

字體：大中小

來源：轉載

供稿：網友

新型可擴展的數據保護方式——擦除編碼

一、概述

　　在之前存儲系統中，一般都采用RAID技術來對數據進行保護，一旦陣列中某塊硬盤損壞，可通過RAID技術所形成的鏡像來對丟失數據進行恢復。但隨著海量數據問題的出現，RAID越來越難發揮其作用。如采用2TB的硬盤作為存儲介質，某塊硬盤故障，使用鏡像對其進行恢復，大概需要4個小時，而這還是將恢復作為最高優先級的情況下才能實現的數據恢復時間。但在實際情況中是不可能出現的，一般都是將RAID作為較低優先級的，在計算資源閑置的情況下在后臺進行的，那么在這種情況下，RAID重建的時間就會不斷延長，數據恢復長達1-2周也就不算奇怪了。如果在數據重建過程之中，又發生硬盤故障的話，那么也就意味著數據將永久丟失。因為RAID 5最多能允許陣列中一塊硬盤損壞，RAID 6允許兩塊硬盤同時故障，但在海量數據時代，多塊硬盤同時損壞并非不可能，企業重要資源之一的數據該如何保證其安全呢?

　　英特爾在IDF大會期間公布了新的可擴展的數據保護方式——擦除編碼。其工作原理是將存儲系統接收到的大塊數據進行切割并編碼，之后再對切割后的數據進行再次切割并編碼，重復這一操作直到數據切割到滿意的數據塊大小為止，這樣使得數據塊分散成多個數據塊，再進行冗余校驗，將不重復的數據塊和編碼寫入存儲系統之中。其與傳統的RAID數據保護如下圖所示：

　　擦除編碼將數據保護架構由RAID 5/6擴展至RAID k，k等于在不造成數據丟失的情況下，可以介紹的故障數量。對于RAID 5來說，k=1;對于RAID 6來說，k=2;對于擦除編碼來說，k=n，如在16塊硬盤組成的陣列之中，采用擦除編碼機制的話，即使6塊硬盤同時故障，其也可對丟失數據進行恢復.

　　由此可以看出，擦除編碼目前主要針對的大數據塊，英特爾也將其應用在其所推薦的大型對象存儲系統之中，經過實際測試，其結果顯示，與傳統的RAID相比，擦除編碼在各個方面都具有無可比擬的優勢，具體結果如下圖所示：

　　　　擦除編碼的應用還不僅與此，在關于擦除編碼的技術課程之中，相關的技術工程師還介紹了擦除編碼靈活應用于多個數據中心的情況，具體如下圖所示：

　　通常而言，傳統的擦除編碼技術對性能的影響，特別是IOPS和延遲的影響還是比較大的，因此目前適用的場景主要局限在歸檔、云存儲等冷數據方面;

上一篇：前端優化：九個技巧，提高Web性能

下一篇：docker容器和鏡像