这个看上去有点乱麻,但是其实不是,这是台湾版hadoop在window上安装,给大家分享一下:
根據hadoop官方文件的建議,Hadoop最佳營運案例主要是在Linux作業系統底下運行。但在台灣,多數資訊從業人員仍以Windows為主要的作業系統。筆者為了降低各位學習Hadoop的門檻,撰寫了一套名為Hadoop4Win的懶人包安裝程式。目前在Windows XP與Windows 2000環境下測試正常,至於Windows 7環境下目前因為安全性權限較嚴格,需關閉UAC,常不易安裝成功,因此這次我們以Windows XP環境來做示範。
首先,請到http://hadoop4win.nchc.org.tw或http://hadoop4win.org下載0.1.5版本的hadoop4win完整安裝檔。Hadoop4win 0.1.5目前包含五大軟體組成:(1) Cygwin;(2) JDK 1.6.0 update 18;(3) Hadoop 0.20.2;(4) HBase 0.20.6;(5) Ant 1.8.2。因此整個完整版懶人包大約有189 MB,請點擊hadoop4win-setup-full_0.1.5.exe執行檔開始進行安裝的動作。 備註:由於hadoop4win會在安裝資料夾寫入數量眾多的檔案,假如您有安裝防毒軟體,安裝時間可能會比較長(因為每個檔案都被掃描過一次)。倘若您希望縮短安裝時間,可暫時性關閉防毒軟體。 當您完成hadoop4win的安裝後,有兩種方式可以在Windows上啟動Hadoop。其一是從「開始」選單選取 start-hadoop捷徑。其二是先點選 hadoop4win 捷徑,進入Cygwin指令操作的介面,才下指令start-hadoop來啟動Hadoop的五個背景服務(亦及NameNode、DataNode、JobTracker、TaskTracker與SecondaryNameNode)。
備註:安裝過程中,Windows防火牆會跳出警告說有Java程式嘗試開啟網路連線埠,這是因為Hadoop背景服務至少會開啟五個網路連線埠來進行底層的RPC通訊,請選擇「解除封鎖」。
接著,您可以根據hadoop4win網頁的說明,學習基本的Hadoop指令操作。礙於版面篇幅,這裡我們僅列舉三個指令操作來進行說明。首先,第一個指令叫jps,這個指令顧名思義就是列出所有java process。單機版的Hadoop4Win,基本上應該要有五個Java程序。因此,倘若您無法看到如圖的五個Java程序名稱(前面的數字為PID,每次執行會不同),那代表您的電腦可能記憶體不足(最低需求為512MB,建議至少有1GB記憶體)。倘若您在執行上遇到任何問題,歡迎到forum.hadoop.tw提問。
如果您可以正常看到jps出現的五個Java程序,代表您的Hadoop環境已經在背景正常執行了。此時您可以點選「開始」選單的「NameNode Web UI」與「JobTracker Web UI」,或者直接用瀏覽器開啟http://localhost:50070與http://localhost:50030的網址。
第二個指令叫作hadoop fs,這個指令是用來驗證Hadoop分散式檔案系統(HDFS,Hadoop Distributed File System)的功能是否正常。請在Cygwin指令視窗鍵入以下指令,將位於安裝目錄(c:\hadoop4win)的opt\hadoop\conf-pseudo子目錄,上傳到HDFS的抽象檔案系統:
$ cd /opt/hadoop$ hadoop fs -put conf-pseudo input ; hadoop fs -ls |
最後一個指令叫作hadoop jar,這個指令是用來驗證Hadoop的MapReduce運算環境功能是否正常。請在Cygwin指令視窗中鍵入以下指令,將剛剛上傳到HDFS的input目錄,共計13個檔案,進行「字數統計(Word Count)」的MapReduce範例運算。
$ hadoop jar hadoop-0.20.2-examples.jar wordcount input output |
STEP 1:首先請選擇語系 「繁體中文,Chinese (Traditional)」 |
STEP 2:本軟體採用Apache 2.0授權, 請按「我接受」 |
STEP 3:如果您不需要HBase跟Ant, 可以取消選取 | STEP 4:選擇安裝目標資料夾, 預設為C:\hadoop4win
| | | STEP 7:安裝完成後,請按關閉結束 | STEP 8:您可以從「開始」→「程式集」 →「hadoop4win」點選start-hadoop 啟動Hadoop服務於背景 |
|