CDH:全稱Cloudera’s Distribution Including Apache Hadoop CDH版本衍化 hadoop是一個開源項目,所以很多公司在這個基礎進行商業化,Cloudera對hadoop做了相應的改變。 Cloudera公司的發行版,我們將該版本稱為CDH(Cloudera Distribution Hadoop)。截至目前為止,CDH共有5個版本,其中,前兩個已經不再更新,最近的兩個,分別是CDH4,在Apache Hadoop 2.0.0版本基礎上演化而來的,CDH5,它們每隔一段時間便會更新一次。1、Apache Hadoop 不足之處
? 版本管理混亂 ? 部署過程繁瑣、升級過程復雜 ? 兼容性差 ? 安全性低
2、Hadoop 發行版
? Apache Hadoop ? Cloudera’s Distribution Including Apache Hadoop(CDH) ? Hortonworks Data Platform (HDP) ? MaPR ? EMR ? …
3、CDH能解決哪些問題
? 1000臺服務器的集群,最少要花費多長時間來搭建好Hadoop集群,包括Hive、Hbase、Flume、Kafka、Spark等等 ? 只給你一天時間,完成以上工作? ? 對于以上集群進行hadoop版本升級,你會選擇什么升級方案,最少要花費多長時間? ? 新版本的Hadoop,與Hive、Hbase、Flume、Kafka、Spark等等兼容?
4、CDH簡介
? Cloudera's Distribution, including Apache Hadoop ? 是Hadoop眾多分支中的一種,由Cloudera維護,基于穩定版本的Apache Hadoop構建 ? 提供了Hadoop的核心 – 可擴展存儲 – 分布式計算 ? 基于Web的用戶界面
5、CDH的優點
? 版本劃分清晰 ? 版本更新速度快 ? 支持Kerberos安全認證 ? 文檔清晰 ? 支持多種安裝方式(Cloudera Manager方式)
6、CDH安裝方式
? Cloudera Manager ? Yum ? Rpm ? Tarball
7、CDH下載地址
? CDH5.4 http://archive.cloudera.com/cdh5/ ?Cloudera Manager5.4.3: http://www.cloudera.com/downloads/manager/5-4-3.html
Apache Hadoop與第三方Hadoop-CDH,HDP,MapR的分析與比較
一、Hadoop版本綜述
目前Hadoop發行版非常多,有華為發行版、Intel發行版、Cloudera發行版(CDH)等,所有這些發行版均是基于Apache Hadoop衍生出來的,之所以有這么多的版本,完全是由Apache Hadoop的開源協議決定的:任何人可以對其進行修改,并作為開源或商業產品發布/銷售。(http://www.apache.org/licenses/LICENSE-2.0)。
國內絕大多數公司發行版是收費的,比如Intel發行版、華為發行版等,盡管這些發行版增加了很多開源版本沒有的新feature,但絕大多數公司選擇Hadoop版本時會將把是否收費作為重要指標,不收費的Hadoop版本主要有三個(均是國外廠商),分別是:
Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,簡稱“CDH”)、
Apache基金會hadoop、
Hortonworks版本(Hortonworks Data Platform,簡稱“HDP”)--------按順序代表了,在國內的使用率,CDH和HDP雖然是收費版本,但是他們是開源的,只是收取服務費用。
對于國內而言,絕大多數選擇CDH版本,主要理由如下:
(1) CDH對Hadoop版本的劃分非常清晰,只有兩個系列的版本(現在已經更新到CDH5.20了,基于hadoop2.x),分別是cdh3和cdh4,分別對應第一代Hadoop(Hadoop 1.0)和第二代Hadoop(Hadoop 2.0),相比而言,Apache版本則混亂得多;(2) CDH文檔清晰,很多采用Apache版本的用戶都會閱讀cdh提供的文檔,包括安裝文檔、升級文檔等。
CDH與Apache版本的對應: cdh3版本是基于apache hadoop 0.20.2 cdh3u6對應到apache hadoop最新版本(Hadoop 1.x) cdh4對應apache hadoop 2.x
HDP版本是比較新的版本,目前與apache基本同步,因為Hortonworks內部大部分員工都是apache代碼貢獻者,尤其是Hadoop 2.0的貢獻者。
二、社區版本與第三方發行版本的比較
1.Apache社區版本
優點: 完全開源免費。 社區活躍 文檔、資料詳實 缺點:----復雜的版本管理。版本管理比較混亂的,各種版本層出不窮,讓很多使用者不知所措。----復雜的集群部署、安裝、配置。通常按照集群需要編寫大量的配置文件,分發到每一臺節點上,容易出錯,效率低下。----復雜的集群運維。對集群的監控,運維,需要安裝第三方的其他軟件,如ganglia,nagois等,運維難度較大。----復雜的生態環境。在Hadoop生態圈中,組件的選擇、使用,比如Hive,Mahout,Sqoop,Flume,Spark,Oozie等等,需要大量考慮兼容性的問題,版本是否兼容,組件是否有沖突,編譯是否能通過等。經常會浪費大量的時間去編譯組件,解決版本沖突問題。2.第三方發行版本(如CDH,HDP,MapR等)
優點:----基于Apache協議,100%開源。----版本管理清晰。比如Cloudera,CDH1,CDH2,CDH3,CDH4等,后面加上補丁版本,如CDH4.1.0 patch level 923.142,表示在原生態Apache Hadoop 0.20.2基礎上添加了1065個patch。----比Apache Hadoop在兼容性、安全性、穩定性上有增強。第三方發行版通常都經過了大量的測試驗證,有眾多部署實例,大量的運行到各種生產環境。----版本更新快。通常情況,比如CDH每個季度會有一個update,每一年會有一個release。----基于穩定版本Apache Hadoop,并應用了最新Bug修復或Feature的patch----提供了部署、安裝、配置工具,大大提高了集群部署的效率,可以在幾個小時內部署好集群。----運維簡單。提供了管理、監控、診斷、配置修改的工具,管理配置方便,定位問題快速、準確,使運維工作簡單,有效。 缺點:----涉及到廠商鎖定的問題。(可以通過技術解決)
三、第三方發行版本的比較
Cloudera:最成型的發行版本,擁有最多的部署案例。提供強大的部署、管理和監控工具。Cloudera開發并貢獻了可實時處理大數據的Impala項目。
Hortonworks:不擁有任何私有(非開源)修改地使用了100%開源Apache Hadoop的唯一提供商。Hortonworks是第一家使用了Apache HCatalog的元數據服務特性的提供商。并且,它們的Stinger開創性地極大地優化了Hive項目。Hortonworks為入門提供了一個非常好的,易于使用的沙盒。Hortonworks開發了很多增強特性并提交至核心主干,這使得Apache Hadoop能夠在包括Windows Server和Windows Azure在內的Microsft Windows平臺上本地運行。
MapR:與競爭者相比,它使用了一些不同的概念,特別是為了獲取更好的性能和易用性而支持本地Unix文件系統而不是HDFS(使用非開源的組件)。可以使用本地Unix命令來代替Hadoop命令。除此之外,MapR還憑借諸如快照、鏡像或有狀態的故障恢復之類的高可用性特性來與其他競爭者相區別。該公司也領導著Apache Drill項目,本項目是Google的Dremel的開源項目的重新實現,目的是在Hadoop數據上執行類似SQL的查詢以提供實時處理。
四、版本選擇當我們決定是否采用某個軟件用于開源環境時,通常需要考慮以下幾個因素:(1)是否為開源軟件,即是否免費。(2) 是否有穩定版,這個一般軟件官方網站會給出說明。(3) 是否經實踐驗證,這個可通過檢查是否有一些大點的公司已經在生產環境中使用知道。(4) 是否有強大的社區支持,當出現一個問題時,能夠通過社區、論壇等網絡資源快速獲取解決方法。
新聞熱點
疑難解答