Linux環境:CentOs6.4
Hadoop版本:hadoop-0.20.2
內容:統計hadoop/bin下的所有文件中單詞出現的個數。
所用到的命令有:
復制代碼代碼如下:
//創建input文件夾
./hadoop fs -mkdir input
//將所有的需要統計單詞個數的文件放在input文件夾下
./hadoop fs -put *.sh /input/
//運行wordcount將結果輸出到output文件夾下
./hadoop jar hadoop-examples-0.20.2.jar wordcount /input /output
//驗證某個單詞的個數
grep xxx *.sh
grep xxx *.sh|wc
第一步:確定HDFS、MapReduce、jobTracker等是否正常啟動。查看http://www.5lwq4hdr.cn/softjc/137245.html
第二步:在Hadoop文件系統根目錄中創建input文件夾。
執行命令:
打開網頁查看input文件夾是否創建成功:
上圖表明已經成功。
第三步:將bin目錄下的所有文件放到hadoop文件系統的input目錄下。
執行命令:
通過瀏覽器查看input文件夾下是否已經存在所存放的文件。
第四步:執行wordcount命令統計單詞個數。
回到Hadoop文件夾下,找到統計個數的jar包。如圖,在hadoop-0.20.2目錄下有一個hadoop-0.20.2-examples.jar。
運行命令執行此jar,統計個數。并將輸出結果放在output目錄下。命令如下:
運行成功。
第五步:驗證結果是否正確。通過命令統計某一單詞的個數,與MapReduce統計的個數進行對比。
通過命令查看文件中language單詞的個數為12個,如圖。
查看MapReduce運行結果,如圖:
運行結果相同。
附:從過頁面查看運行狀態
新聞熱點
疑難解答
圖片精選