1. <var id="fe6gj"></var>

    <rp id="fe6gj"><nav id="fe6gj"></nav></rp>

    <noframes id="fe6gj"><cite id="fe6gj"></cite>

    <ins id="fe6gj"><button id="fe6gj"><p id="fe6gj"></p></button></ins>
    1. <tt id="fe6gj"><i id="fe6gj"><sub id="fe6gj"></sub></i></tt>
        始創于2000年 股票代碼:831685
        咨詢熱線:0371-60135900 注冊有禮 登錄
        • 掛牌上市企業
        • 60秒人工響應
        • 99.99%連通率
        • 7*24h人工
        • 故障100倍補償
        您的位置: 網站首頁 > 幫助中心>文章內容

        利用Hadoop搭建大型分布式應用系統

        發布時間:  2012/7/22 16:13:36

        在2010年Techonomy會議上參加討論時,谷歌CEO Eric Schmidt引用一個驚人的事實指出,我們現在每兩天創造的信息和2003年以來整個歷史上所創建的信息一樣多。信息泛濫帶來了一系列的技術突破,這讓企業的數據存儲擴展到數千億字節甚至是數拍字節。谷歌在此領域的貢獻是尤其值得注意,包括它在MapReduce上的工作,它是一種大型分布式數據處理的方法,谷歌采用此方法來記錄位于索引資源(映射這些數據)收藏里的關鍵字或短語,接著再把這些位置的記錄和清單返回給用戶(將映射數據減少到緊密相關的結果)。映射和減少操作可以涵蓋模式識別、圖解分析、風險管理和預測模式。

        雖然谷歌的MapReduce安裝是專有的,還存在MapReduce概念的很多開源安裝,包括Apache Hadoop。事實上,Hadoop已經是分布式數據處理的實際解決方案了,數十個國際公司已經從執行和開發兩個方面大力投資該項目。Adobe、Amazon、AOL、Baidu、EBay、Facebook、Hulu、IBM、Last.fm、LinkedIn、Ning、Twitter和Yahoo等已成為用戶,很多大學、醫院和研究中心也都成為用戶,采用并不受互聯網重要人物的限制。

        Hadoop項目介紹

        和Apache軟件基金會(ASF)的很多項目一樣,Hadoop是一個涵蓋性術語,它分配基金會的全部措施來產生“可信、可擴展且分布式計算的開源軟件”,F在的措施由四個子項目組成,包括:

        • Hadoop Common:Hadoop Common形成Hadoop項目的核心,通過緊跟著的同胞項目提供所需的“管道裝置”。
        • HDFS:Hadoop分布式文件系統(HDFS)是遍及計算集群負責復制和分配數據的存儲系統。
        • MapReduce:MapReduce是開發人員用來編寫應用的軟件架構,這些應用處理那些存儲在HDFS中的數據。
        • ZooKeeper:ZooKeeper負責協調配置數據、進程同步和其它所有被分配應用有效運作所需的網絡相關服務。因此,雖然你確實會以單一檔案文件的形式下載Hadoop,記住,你正在下載的實際上是四個子項目,它們齊心協力來實施映射和歸算處理。

        用Hadoop做實驗

        盡管Hadoop試圖解決的問題本質復雜,從運用這個項目開始會非常容易。作為一個例子,我認為用Hadoop來完成我“用PHP簡化貝寶”一書中的詞頻率分析會很有趣。這個任務會仔細查看整本書(長度大概在130頁左右),并且產生一個所有書中出現詞語的分組列表,連同其中每個詞出現在頻率。

        安裝Hadoop之后,我用Calibre把我的書從PDF轉成文本文檔。Hadoop wiki還包含相似的指令,但由于比較近期的Hadoop配置過程改變,以前的資源包含略有更新的指令。

        接下來我用下面的命令從臨時位置把這本書復制到Hadoop分布式文件系統:

         

        $ ./bin/hadoop dfs -copyFromLocal /tmp/easypaypalwithphp/ easypaypalwithphp

         

        你可以通過運用以下命令確認復制成功:

         

        $ ./bin/hadoop dfs -ls
        drwxr-xr-x - hadoop supergroup 0 2011-01-04 12:48 /user/hadoop/easypaypalwithphp

         

        緊接著,運用和Hadoop一起打包的示例WordCount腳本來執行詞頻率分析:

         

        $ ./bin/hadoop jar hadoop-mapred-examples-0.21.0.jar wordcount \
        > easypaypalwithphp easypaypalwithphp-output ...
        11/01/04 12:51:38 INFO mapreduce.Job: map 0% reduce 0%
        11/01/04 12:51:48 INFO mapreduce.Job: map 100% reduce 0%
        11/01/04 12:51:57 INFO mapreduce.Job: map 100% reduce 100%
        11/01/04 12:51:59 INFO mapreduce.Job: Job complete: job_201101041237_0002
        11/01/04 12:51:59 INFO mapreduce.Job: Counters: 33
        FileInputFormatCounters
        BYTES_READ=274440

         

        最后,你可以用以下命令查看輸出內容:

         

        $ ./bin/hadoop dfs -cat easypaypalwithphp-output/part-r-00000
        ...
        Next 21
        Next, 8
        No 5
        NoAutoBill 1
        Norwegian 1
        Not 2
        Notably, 2
        Note 5
        Notice 6
        Notification 13
        ...億恩科技石頭 負責服務器租用和托管業務
        聯系人:石頭
        QQ:億恩石頭673606008
        電話:0371-63322217
        手機:18237160419
        地址:鄭州市黃河路姚寨路天一大廈B座608室

         

        示例WordCount頻率分析腳本非;,對書中文本里的每一列分配同等的重量,包括代碼。但是為了解析例如DocBook格式的文件并忽略代碼而修改腳本則會是很煩瑣的事情。無論如何,考慮一下你想要創建谷歌全球書籍詞頻統計器一類服務的情況,它


        本文出自:億恩科技【www.endtimedelusion.com】

        服務器租用/服務器托管中國五強!虛擬主機域名注冊頂級提供商!15年品質保障!--億恩科技[ENKJ.COM]

      1. 您可能在找
      2. 億恩北京公司:
      3. 經營性ICP/ISP證:京B2-20150015
      4. 億恩鄭州公司:
      5. 經營性ICP/ISP/IDC證:豫B1.B2-20060070
      6. 億恩南昌公司:
      7. 經營性ICP/ISP證:贛B2-20080012
      8. 服務器/云主機 24小時售后服務電話:0371-60135900
      9. 虛擬主機/智能建站 24小時售后服務電話:0371-60135900
      10. 專注服務器托管17年
        掃掃關注-微信公眾號
        0371-60135900
        Copyright© 1999-2019 ENKJ All Rights Reserved 億恩科技 版權所有  地址:鄭州市高新區翠竹街1號總部企業基地億恩大廈  法律顧問:河南亞太人律師事務所郝建鋒、杜慧月律師   京公網安備41019702002023號
          0
         
         
         
         

        0371-60135900
        7*24小時客服服務熱線

         
         
        av不卡不卡在线观看_最近2018年中文字幕_亚洲欧美一区二区三区_一级A爱做片免费观看国产_日韩在线中文天天更新_伊人中文无码在线