解密大數據良藥——Hadoop的十二個事實 |
發布時間: 2012/9/4 17:21:15 |
現如今,Apache Hadoop已經無人不知無人不曉。當年雅虎搜索工程師Doug Cutting開發出這個用以創建分布式計算機環境的開源軟件庫,并以自己兒子的大象玩偶為其命名的時候,誰能想到它有一天會占據“大數據”技術的頭把交椅呢。
雖然Hadoop伴隨大數據一同火爆起來,但相信還是有許多用戶對于它不甚了解。在上周名的TDWI解決方案峰會中, TDWI研究主任兼行業分析師Philip Russom發表了“關于Hadoop的12點事實”的主題演講,編輯在本文中將對其精華內容進行總結,希望對您進一步了解Hadoop有所幫助。 事實1:Hadoop是由多個產品組成的。 人們在談論Hadoop的時候,常常把它當做單一產品來看待,但事實上它由多個不同的產品共同組成。 Russom說:“Hadoop是一系列開源產品的組合,這些產品都是Apache軟件基金會的項目。” 一提到Hadoop,人們往往將其與MapReduce放在一起,但其實HDFS和MapReduce一樣,也是Hadoop的基礎。 事實2:Apache Hadoop是開源技術,但專有廠商也提供Hadoop產品。 由于Hadoop屬于開源技術,可免費下載,所以IBM、Cloudera和EMC Greenplum等廠商都可以推出他們各自的Hadoop特別發行版本。 這些特別發行版本一般都會有一些附加特性,比如高級管理工具及相關的支持維護服務。有人可能對此嗤之以鼻:既然開源社區是免費的,那么我們為什么還要為它的服務付費?Russom解釋道,這些版本的HDFS對一些IT部門更合適,特別是企業IT系統已經相對成熟的用戶。 事實3:Hadoop是一個生態系統,而非一個產品。 Hadoop是由開源社區和各個廠商共同開發和推動的。具體說來,廠商的Hadoop的產品其結構化和關系性更強一些。 Russom說:“一直以來報表平臺、數據集成平臺在為更新的平臺提供各種各樣的接口,Hadoop當然也不例外。” 事實4:HDFS是文件系統,而不是數據庫管理系統。 Russom最無法忍受的,就是人們常常把二者混為一談。能夠對數據集進行管理是數據管理系統很重要的特性之一,這一點HDFS是不具備的。 數據庫管理系統中,我們通過查詢索引可以實現對數據的隨機訪問,它往往處理的是結構化的數據,而在Hadoop中不會處理這樣的數據類型。 本文出自:億恩科技【www.endtimedelusion.com】 |