用友華表任少斌:三面突圍大數據存儲 |
發布時間: 2012/9/5 10:53:22 |
大數據時代給傳統數據倉庫架構帶來了一系列的沖擊和挑戰,僅從源數據采集和存儲層面,就讓倉儲的構建者不得不重新認真地思考:數據在哪里?這個問題的答案改寫了企業數據倉庫對數據源的既有定義,同時也傳遞了兩方面的焦慮,一是數據規模急速增長,現有的單節點或者共享磁盤架構能否適應海量數據的存儲;二是數據結構復雜多樣,現有的基于結構化數據為主體的存儲方案能否兼容無模式的非結構化數據。
面對企業大數據的挑戰,用友華表作為一家提供商業分析產品的供應商,在技術上我們將如何解決大數據的問題呢?目前面對大數據給現有倉庫存儲架構帶來的量的沖擊和數據種類增加的挑戰,不同的公司會選擇不同的技術路線,我們最初試圖通過一個大而全的存儲架構來解決海量數據和多種數據類型的問題。但結過一段時間反復研究,我們認為大而全的存儲架構不是解決大數據的最佳方案,我們目前決定采用的技術路線是讓不同種類的數據存儲在最適合他們的存儲系統里,然后再將不同的數據類型進行融合,企業在融合的數據基礎上做商業分析。 本文我將從用友華表的技術思路、存儲方案、存儲之后的數據如何融合三個層次來闡述我們如何應對大數據的挑戰。 分而治之 三面突圍 第一,有"容"乃大。"容",即有足夠的容量來存儲數據。對于大規模數據,我們將采用分而治之的思想,構建分布式存儲系統,并且做到易擴展。保證系統可以方便的增加節點,當企業的數據快速增加時,可以使數據分布始終保持在平衡狀態; 第二,有"榮"乃大。即兼用多種存儲引擎。大數據因結構復雜多樣使得數據倉庫要采集的源數據種類無比"繁榮",因此新的倉儲架構也要改變目前以結構化為主體的單一存儲方案的現狀,針對每種數據的存儲特點選擇最合適的解決方案:對非結構化數據采用分布式文件系統進行存儲,對結構松散無模式的半結構化數據采用面向文檔的分布式key/value存儲引擎,對海量的結構化數據采用shared-nothing的分布式并行數據庫系統存儲; 第三,有"融"乃大。如上所述可以兼用多種分布式存儲引擎來解決"容"和"榮"的挑戰,但企業存儲多元化數據的一個重要目標是集成分析,而多種類型數據孤立存儲對后續的集成分析會帶來極大不便。因此我們還需要構建分布式數據庫系統和分布式文件系統之間的連接器,使得非結構化數據在處理成結構化信息后,能方便的和分布式數據庫中的關系型數據快速融通,保證大數據分析的敏捷性。 存儲方案各不同 上面提到針對大數據規模大、種類多的特點,我們可以采用"容"、"榮"的方案,兼用多種分布式存儲引擎分而治之。那么我們就拿非結構化、半結構化和結構化這三大類數據的存儲方案分別舉例說明,以便讓大家更清楚的了解到不同類型的海量數據通常都是通過哪些方式來進行存儲的。由于談到的都是業界普遍使用的開源或商業方案,因此不做深入討論。 首先,適合存儲海量非結構化數據的分布式文件系統。 HDFS(Hadoop Distributed File System),是鼎鼎大名的開源項目Hadoop的家族成員,是谷歌文件系統GFS(Google File System)的開源實現。HDFS將大規模數據分割為多個64兆字節的數據塊,存儲在多個數據節點組成的分布式集群中,隨著數據規模的不斷增長,只需要在集群中增加更多的數據節點即可,因此具有很強的可擴展性;同時每個數據塊會在不同的節點中存儲3個副本,因此具有高容錯性;因為數據是分布式存儲的,因此可以提供高吞吐量的數據訪問能力,在海量數據批處理方面有很強的性能表現。 其次,適合存儲海量無模式的半結構化數據的分布式Key/Value存儲引擎。 HBase(Hadoop Database),也是開源項目Hadoop的家族成員,是谷歌大表Bigtable的開源實現。HBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統,它不同于一般的有模式的關系型數據庫,HBase存儲的數據表是無模式的,特別適合結構復雜多樣的半結構化數據存儲。此外,HBase利用HDFS作為其文件存儲系統,利用MapReduce技術來處理HBase中的海量數據。 第三,適合存儲海量結構化數據的分布式并行數據庫系統。 Greenplum是基于PostgreSQL開發的一款MPP(海量并行處理)架構的、shared-nothing無共享的分布式并行數據庫系統。采用Master/Slave架構,Master只存儲元數據,真正的用戶數據被散列存儲在多臺Slave服務器上,并且所有的數據都在其它Slave節點上存有副本,從而提高了系統可用性。 Greenplum最核心的技術就是,大表數據分片存儲,可以應對海量數據;基于大表的查詢語句在經過Master分析后可以分片發送到Slave節點進行并行運行,所有節點將中間結果返回給Master節點,由Master進行匯總后返回給客戶端,大大提高了SQL的運行速度。 本文出自:億恩科技【www.endtimedelusion.com】 |