国产丝袜在线精品丝袜不卡,乱无码伦视频在线观看,日韩美女视频在线网站视频,国产人妻久久久精品麻豆,国产人妻久久久精品麻豆

如何做Hadoop集群存儲(chǔ)規(guī)劃—HDFS篇
日期:2022-03-18 點(diǎn)擊
由于項(xiàng)目執(zhí)行從規(guī)劃開始,Hadoop技術(shù)從存儲(chǔ)延伸,因此本篇文章作為該系列的第一篇,首先對(duì)怎么進(jìn)行Hadoop集群存儲(chǔ)規(guī)劃進(jìn)行探討。

眾所周知,Hadoop的存儲(chǔ)組件有已經(jīng)存活了十二年之久的HDFS,問(wèn)世三年而用戶寥寥的KUDU,以及來(lái)勢(shì)兇猛的新晉網(wǎng)紅Ozone。

KUDU雖然有和HDFS一樣的水平擴(kuò)展能力以及近似HBase的高效隨機(jī)讀寫能力,但受限于其功能局限性以及和其他軟件之間的兼容能力不強(qiáng),因此目前主要作為存放"實(shí)時(shí)更新的,用來(lái)做快速分析的結(jié)構(gòu)化數(shù)據(jù)"的載體,這部分?jǐn)?shù)據(jù)量不會(huì)太大,比起HDFS中的數(shù)據(jù)應(yīng)該會(huì)小的多。

 

Ozone到目前剛剛推出了alpha 0.4.1版本,離正式release還有一段路要走,所以短期內(nèi)也只有小范圍的試用需求。

說(shuō)到底,目前的存儲(chǔ)規(guī)劃還是要以HDFS為主。而對(duì)于HDFS,這里有幾個(gè)問(wèn)題考量:

● HDFS容量

● 數(shù)據(jù)壓縮

● 硬件選擇

HDFS的容量

HDFS設(shè)計(jì)初衷是以多副本機(jī)制解決硬件的不可靠性,從而在節(jié)約硬件成本的情況下盡量提升數(shù)據(jù)的可用性與讀寫效率。HDFS通常默認(rèn)配置為3副本,結(jié)合HDFS的機(jī)架感知特性,3個(gè)副本通常按照如下分布:

● 將第一副本寫到離數(shù)據(jù)輸入client最近的同一rack數(shù)據(jù)節(jié)點(diǎn)上,如輸入client與集群數(shù)據(jù)節(jié)點(diǎn)分布在不同的機(jī)架上,則隨機(jī)寫入一個(gè)不太繁忙的數(shù)據(jù)節(jié)點(diǎn)。

● 將第二副本寫入與第一副本不在同一rack的數(shù)據(jù)節(jié)點(diǎn)上。

● 將第三副本寫入與第二副本同一rack的不同數(shù)據(jù)節(jié)點(diǎn)上。

在幾年前大數(shù)據(jù)產(chǎn)業(yè)發(fā)展伊始,企業(yè)中的數(shù)據(jù)量都還是”數(shù)據(jù)庫(kù)量級(jí)”的時(shí)候,數(shù)據(jù)庫(kù)軟件和專用存儲(chǔ)都非常昂貴,這樣做的確是最佳實(shí)踐,既降低了軟硬件的成本,還提高了數(shù)據(jù)的可用性。然而技術(shù)發(fā)展日新月異,在企業(yè)的大數(shù)據(jù)發(fā)展終于進(jìn)入”大數(shù)據(jù)量級(jí)”的時(shí)候,即便是普通廉價(jià)的工業(yè)磁盤也因?yàn)榧哼^(guò)大,數(shù)量太多產(chǎn)生了經(jīng)濟(jì)方面的壓力。

多副本機(jī)制是否有必要,是不是造成了存儲(chǔ)資源的浪費(fèi)?

Hadoop 3.X實(shí)現(xiàn)了EC碼(糾刪碼)機(jī)制,來(lái)減少數(shù)據(jù)存儲(chǔ)副本,提升數(shù)據(jù)的可用性。最簡(jiǎn)單的EC碼是XOR編碼(異或操作碼),它的原理如下:


RS碼策略存儲(chǔ)開銷

可以看出,使用了EC碼(無(wú)論是XOR碼還是RS碼)以后,存儲(chǔ)的開銷都從之前的300%下降到了150%左右,但是不是說(shuō)EC糾刪碼代替原來(lái)的多副本機(jī)制就是更好的解決方案?或者說(shuō)考慮使用磁盤陣列(RAID)的方式來(lái)提高數(shù)據(jù)可用性操作性更強(qiáng)?畢竟RAID方式也是使用了EC糾刪碼的原理(RAID5實(shí)現(xiàn)了XOR的機(jī)制允許壞掉一個(gè)副本,RAID6則實(shí)現(xiàn)了RS的機(jī)制允許壞掉2個(gè)副本)。

事情沒(méi)有這么簡(jiǎn)單,多副本機(jī)制與EC糾刪碼碼機(jī)制相比,有以下特點(diǎn):

多副本與EC碼

可以看出,EC糾刪碼雖然大大提升了磁盤利用率,但是其在數(shù)據(jù)恢復(fù)方面的表現(xiàn)是不太理想的,因?yàn)镋C糾刪碼的加密解密過(guò)程大大依賴于CPU的能力,而數(shù)據(jù)恢復(fù)過(guò)程中,又需要網(wǎng)絡(luò)傳輸大量的數(shù)據(jù)。

在同一個(gè)集群中,同一份數(shù)據(jù)要么配置EC糾刪碼機(jī)制,要么配置多副本機(jī)制,兩者是互斥的?;谶@么一個(gè)前提,有benchmark測(cè)試表明,在未發(fā)生數(shù)據(jù)故障時(shí),配置了EC糾刪碼和多副本機(jī)制的HDFS讀寫效率基本一致,但在發(fā)生了數(shù)據(jù)恢復(fù)時(shí),多副本機(jī)制的HDFS讀寫效率要比EC碼機(jī)制的讀寫效率快3-4倍。在數(shù)據(jù)量超大,CPU配置不高以及網(wǎng)絡(luò)帶寬有限的集群環(huán)境里,這也是相對(duì)致命的問(wèn)題。

要不要使用磁盤陣列(RAID)的方式?

其實(shí)配置磁盤陣列與配置HDFS糾刪碼實(shí)現(xiàn)原理是一樣的,但是磁盤陣列只在單個(gè)節(jié)點(diǎn)生效,HDFS糾刪碼則針對(duì)整個(gè)集群生效。換句話說(shuō),即便配置了磁盤陣列,但是單個(gè)節(jié)點(diǎn)的服務(wù)器如果由于磁盤以外的其他原因故障了,那數(shù)據(jù)就丟失了,這個(gè)風(fēng)險(xiǎn)很大,因此使用HDFS糾刪碼要比單純使用磁盤陣列安全的多。

怎么選擇使用多副本機(jī)制還是EC糾刪碼?

通常建議熱數(shù)據(jù)較多,業(yè)務(wù)密集型的集群還是按照3副本機(jī)制進(jìn)行配置容量,而冷數(shù)據(jù)較多,以存放備份歸檔數(shù)據(jù)為主的集群可考慮以EC糾刪碼的方式來(lái)進(jìn)行配置容量,但是磁盤總?cè)萘坎粦?yīng)小于實(shí)際數(shù)據(jù)的大小的2倍。另外需要注意的是,使用EC糾刪碼只能在Hadoop 3.X以上的版本進(jìn)行。

自主創(chuàng)新

合作共贏

產(chǎn)品質(zhì)量

用戶滿意

聯(lián)系我們

地址:北京市石景山區(qū)泰禾長(zhǎng)安中心A塔21層

座機(jī):010-57151960、17715824179

Copyright © 北京沃科信息技術(shù)有限公司

京ICP備2021041347號(hào)

掃一掃

手機(jī)站