“大數據”的價值——以Hadoop為核心 |
發布時間: 2012/8/2 14:24:00 |
面對海量的業務數據,Hadoop和其他工具正在視圖揭示深奧的企業與外部數據的關鍵內幕。
在追求競爭優勢的無止境征程中,企業開始求助于企業與外部數據的大型信息庫來發現趨勢、統計數據以及其他幫助決定下一步行動的全面、精確的信息。這些數據以及相關工具、平臺和分析技術常常被稱之為“大數據”(Big Data)。如今,“大數據”這一術語在技術人員和IT經理等群體中變得越來越流行。
雖然決策者意識到“大數據”中存在的價值,但對大多數企業而已,這一直是一種難以得到的價值。但這正是 IT部門可以發揮作用的地方。IT部門可以開發讓研究人員能夠深入大型數據中進行分析,并發現重要趨勢的服務。換句話說,IT將證明自己是使“大數據”的承諾變為現實的催化劑。
“大數據”已經在多個領域證明了它的重要性和價值。像美國國家海洋與大氣管理局(NOAA)、美國國家航空航天局(NASA)這樣的研究機構、多家醫藥公司和多家能源公司都積累了大量的數據,現在每天都在利用“大數據”技術從這些數據中獲取價值。
NOAA利用“海量數據”進行氣象、生態系統、天氣和商務研究。NASA則將“大數據”用于航空和其他領域。醫藥公司和能源公司利用“大數據”獲得更真實的結果,例如藥品測試和地球物理分析!都~約時報》使用“大數據”工具進行文本分析和Web信息挖掘。迪斯尼則利用它們關聯和了解跨不同商店、主題公園和Web資產的客戶行為。
“大數據”對今天企業的價值還體現在另外一方面。大型機構面臨著維護海量結構化和非結構化數據(從數據倉庫中的交易數據,到雇員的微博,從供應商記錄到管理文件)的需要,以遵從政府的法規。最近的幾場官司更是對這種需求起到了推波助瀾的作用,它們促使企業保留大量的文檔、電子郵件和其他在打官司時實施電子發現(e-Discovery)可能需要的電子通信記錄(例如即時消息和IP電話)。
也許,那些追逐“大數據”的機構面臨的最大挑戰是獲得一種平臺,這種平臺可以保存與訪問所有當前與未來的信息,并高性價比地在線提交信息供分析之用。這意味著一種高可伸縮的平臺。這類平臺由存儲技術、查詢語言、分析工具、內容分析工具以及傳輸基礎設施(其中有很多需要由IT部門部署和維護運營的設備)構成。
目前有許多獲得這些工具的專有與開源資源。這些工具常常來自新興廠商,但也有像亞馬遜和谷歌這樣的知名云技術公司。事實上,云的使用解決了在數據存儲和計算能力方面“大數據”的可伸縮性問題。但是,“大數據”不一定采用“自助式”的部署。IBM和EMC等大廠商同樣提供用于“大數據”項目的工具,這些工具的費用會很高,企業需要付出更多的部署成本。
以Hadoop為核心
在開源領域中,Hadoop可算是大名鼎鼎。Hadoop是由Apache軟件基金會管理的一個項目,包含由谷歌驅動的、用于構建整合、組合和了解數據的平臺的技術。
從技術上看,Hadoop由兩項關鍵服務構成:采用Hadoop分布式文件系統(HDFS)的可靠數據存儲服務,以及利用一種叫做MapReduce技術的高性能并行數據處理服務。這兩項服務的共同目標是,提供一個使對結構化和復雜數據的快速、可靠分析變為現實的基礎。在許多案例中,企業將Hadoop與老的IT系統部署在一起,從而能夠以有力的新方式組合新舊數據集合。Hadoop讓企業可以根據自有信息和問題定制,更容易地分析和研究復雜數據。
Hadoop運行在商用獨立的服務群集上。你可以隨時添加或刪除Hadoop群集中的服務器。Hadoop系統會檢測和補償任何服務器上出現的硬件或系統問題。換句話說,Hadoop是自愈系統。在出現系統變化或故障時,它仍可以運行大規模的高性能處理任務,并提供數據。
雖然Hadoop提供了數據存儲和并行處理平臺,但其真正的價值來自于這項技術的添加件、交叉集成和定制實現。為此,Hadoop還提供向這一平臺增加功能性和新能力的子項目,具體如下:
■Hadoop Common:支持其他Hadoop子項目的通用工具。
■Chukwa:管理大型分布式系統的數據采集系統。
■HBase:支持大型表格結構化數據存儲的可伸縮、分布式數據庫。
■HDFS:向應用數據提供高吞吐量訪問的分布式文件系統。
■Hive:提供數據匯總和隨機查詢的數據倉庫基礎設施。
■MapReduce:用于對計算群集上的大型數據集合進行分布式處理的軟件框架。
■Pig:用于并行計算的高級數據流語言和執行框架。
■ZooKeeper:用于分布式應用的高性能協調服務。
Hadoop平臺的多數實現至少包括其中的一些子項目,因為這些子項目常常是利用“大數據”所不可或缺的。例如,大多數機構會選擇使用HDFS作為主分布式文件系統,選擇可以保存幾十億行數據的HBase作為數據庫。而使用MapReduce則幾乎是肯定的事情,因為其引擎賦予了Hadoop平臺速度和靈活性。
利用MapReduce,開發人員可以開發跨處理器分布式群集或獨立計算機的、并行處理海量非結構化數據的程序。MapReduce框架可以劃分為兩個功能區:其中Map具備將工作分配給分布式群集中不同節點的功能;Reduce則負責核對工作,將工作結果轉化為單一值。
MapReduce的主要優勢之一是容錯性。MapReduce是通過監測群集中的每個節點來實現容錯性的。每個節點定期向MapReduce報告和返回完成的工作與狀態更新。如果某個節點的靜默時間長度超出了預期值,主節點就會發出通知,并把工作重新分配給其他節點。
擴展Hadoop
除了許多開源支持工具外(例如Clojure和Thrift),市場上還有幾十種商用選擇,雖然許多工具是利用Hadoop為基礎構建的。PricewaterhouseCoopers技術與創新中心近日發表了“大數據”模塊化構建及其與IT部署和業務使用關系的深度指南。
Datameer是其中的一個例子。Datameer提供一種平臺,用于采集與讀取不同類型的大型數據庫,將它們植入到Hadoop框架中,然后提供分析這些數據的工具。Datameer實際上是尋求將Hadoop的復雜性隱藏起來,并提供運行在 Hadoop之上的分析工具。Datameer的誘人之處是超過10TB的數據源,Datameer認為在這種數據規模水平上,企業在使用傳統技術進行分析時開始遇到困難。
另一些提供類似的“大數據”分析技術的商業廠商包括Appistry、Cloudera,、Drawn to Scale HQ、Goto Metrics、Karmasphere和Talend。3家主要數據庫廠商,IBM、微軟和甲骨文都支持與Hadoop的互動,盡管以不同的方式實現。開源BI廠商Pentaho也支持Hadoop。
適合各種規模的企業
“大數據”的優勢并不只是規模,還在于性能,無論數據集合的維數有多少。這對于直接分析非常重要,例如評估某位客戶在網站上的行為來更好地了解他們需要什么支持或尋找什么產品,或者搞清當前天氣和其他條件對于送貨路線和時間安排的影響。
這正是服務器集群、高性能文件系統和并行處理的用武之地。過去,這些技術過于昂貴,只能為大企業所采用。今天,虛擬化和商用硬件大大降低了使用這些技術的成本,從而使“大數據”可為中小企業所用。
那些較小的企業還有另一條利用“大數據”分析的途徑——云。“大數據”云服務開始出現,提供迅速、高效執行分析的平臺和工具。
但是,較小的企業真的需要利用“大數據”嗎?答案是,需要。所有的公司都有“大數據”,不管它們是否意識到它的存在。例如,大多數在線企業都從它們的日志文件和點擊流數據中采集大量的數據。對于沒有這類數據流、保存兆千字節而非兆兆字節的公司而言,“大數據”使它們可以利用巨大的、公開的數據源寶藏。
世界銀行在線發布了其有關整個世界的統計數據,美國國會圖書館存檔了自2006年3月起的所有 Twitter數據。此外,還有很多有關提供對它們的信息低成本訪問的新聞,以及針對數據服務的投資。除了你自己的數據外,“大數據”技術可以用于分析這些數據源,或者同時對兩者進行分析。 以FlightCaster為例。這是一家提供更高精度航班延誤預測服務的公司,在預測過程中其準確度超過了主要航空公司的估計。FlightCaster挖掘了大量有關國內航班的海量歷史數據和實時條件下的各種因素,以及其他利用大量同樣可供航空公司使用的公開數據所得到的其他專有元素。
FlightCaster的秘密在于,其對“大數據”分析技術實際的了解和應用正確的工具實時計算結果。 隨著費用的降低和企業考慮關聯數據的新途徑,“大數據”分析技術將變得更加普及,這也許為小公司提供一種變成大公司的成長機制。谷歌、雅虎和 Facebook曾經都是小公司,它們因利用自己的數據和了解這些數據中的關系而迅速成長。“大數據”的許多基礎來自于這些企業所開發的技術并非偶然的。今天,這些方法通過Hadoop和其他工具廣泛地提供給像您的公司這樣的企業。 本文出自:億恩科技【www.endtimedelusion.com】 |