<wbr id="tp3ty"><input id="tp3ty"></input></wbr>
  • <acronym id="tp3ty"></acronym>
  • <ins id="tp3ty"></ins>
    <video id="tp3ty"><input id="tp3ty"></input></video>

  • 企業空間 采購商城 存儲論壇
    華為全閃存陣列 IBM云計算 Acronis 安克諾斯 安騰普 騰保數據
    首頁 > 大數據 > 正文

    XSKY打造Hadoop HDFS高性能客戶端,構筑數據湖理想底座

    2019-08-22 15:40來源:中國存儲網
    導讀:XSKY開發了基于對象存儲XEOS的專用Hadoop HDFS高性能客戶端XSKY HDFS Client。

    隨著全球數據呈爆發式增長,基于海量數據的挖掘和分析,為用戶帶來了巨大的商業價值。源于開源平臺的Apache Hadoop,允許使用簡單的編程模型跨計算機集群分布式處理大型數據集,成為大數據時代最受歡迎的技術之一。

    01性能瓶頸

    HDFS分布式文件系統作為Hadoop的三大組件之一,是分布式計算中數據存儲管理的基礎。但是在HDFS傳統架構下,Hadoop擴展性受到了一定限制,容易出現性能瓶頸等問題。

    XSKY打造Hadoop HDFS高性能客戶端,構筑數據湖理想底座

    圖片來源:Hadoop官方文檔

    例如,由于HDFS中每個文件、目錄和數據塊的元數據信息(大約150字節)必須存儲在NameNode的內存中,這也就意味著對于一個擁有大量文件的超大集群來說,內存將成為限制系統橫向擴展的瓶頸。

    同時,作為一個可擴展的文件系統,單個集群中支持數千個節點。在單個命名空間中DataNode可以擴展的很好,但是NameNode并不能在單個命名空間進行橫向擴展。通常情況下,HDFS集群的性能瓶頸出現在單個NameNode上。

    雖然,在Hadoop 2.x發行版中引入了聯邦HDFS功能,允許系統通過添加多個NameNode來實現擴展。但是,系統管理員需要維護多個NameNodes和負載均衡服務,這又無形中增加了管理成本。

    此外,大數據平臺建設和應用中還亟待解決以下問題:

    ▪ 在傳統的Apache Hadoop集群系統中,計算和存儲資源緊密耦合。當存儲空間或計算資源不足時,只能同時對兩者進行擴容,不僅擴容不方便,且經濟效率較低;

    ▪ Hadoop的數據備份方案昂貴,且難以實現;

    ▪ 不同部門、平臺各自建大數據系統,數據不共享,導致大數據計算平臺碎片化,逐漸形成大數據煙囪。

    02XSKY HDFS Client

    為了解決上述問題,業界一般采用對象存儲來作為Hadoop的后端存儲,解決上面HDFS的各種問題,構建數據湖解決方案。

    Hadoop社區也開發了S3A連接器,用來對接標準的S3對象存儲。但是,標準的S3A連接器的性能一般比HDFS要差很多,而且不支持追加寫,因此只能支持部分對性能不高的業務,或者作為Hadoop分層存儲使用。

    為此,XSKY開發了基于對象存儲XEOS的專用Hadoop HDFS高性能客戶端XSKY HDFS Client。

    XSKY打造Hadoop HDFS高性能客戶端,構筑數據湖理想底座

    XSKY HDFS Client和S3A架構對比

    通過XSKY HDFS Client,Hadoop應用可以訪問存儲在XEOS中的所有數據,這就避免了傳統的Hadoop應用在進行數據分析前,還要將數據由業務存儲移動到分析存儲HDFS中。

    XSKY HDFS Client為Hadoop應用提供了標準的 Hadoop 文件系統操作接口。在每個計算節點上,Hadoop應用都將使用XSKY HDFS Client (JAR) 執行 Hadoop文件系統的操作,XSKY HDFS Client屏蔽了Hadoop應用與XEOS集群交互的復雜性。

    相比于原生Hadoop S3A對接對象存儲的方式,XSKY HDFS Client可以直接訪問存儲集群的OSD,IO路徑更短;同時,XSKY HDFS Client具有追加寫的功能,可以匹配Hadoop文件系統對追加寫的需求。

    XSKY內部對在業界最廣泛應用的Hadoop商業發行版本之一Cloudera CDH的TestDFSIO測試中顯示,部署了XSKY HDFS Client的 XEOS集群寫性能超過采用Remote HDFS系統的94%,讀性能超過77%(兩種測試硬件配置一樣,節點數都是8節點,其中存儲和Datanode都是3節點)。

    XSKY打造Hadoop HDFS高性能客戶端,構筑數據湖理想底座

    XSKY打造Hadoop HDFS高性能客戶端,構筑數據湖理想底座

    WordCount測試中,性能瓶頸主要在CDH計算集群的CPU使用率,兩組測試環境計算集群的CPU均達到了100%。HDFS對1TB數據進行WordCount計算的時間消耗為46分22秒,而XEOS的時間消耗為47分20秒,相差不大。

    XSKY打造Hadoop HDFS高性能客戶端,構筑數據湖理想底座

    HBase寫測試中,HDFS對30,000,000條數據進行寫入時間消耗為2分23秒,而XEOS的時間消耗為2分55秒,與HDFS比相差30秒左右。但是從HBase統計的IOPS來看,HDFS和XEOS相差不大。

    XSKY打造Hadoop HDFS高性能客戶端,構筑數據湖理想底座

    XSKY打造Hadoop HDFS高性能客戶端,構筑數據湖理想底座

    HBase讀測試,HDFS對30,000,000條數據進行讀取時間消耗為47秒,而XEOS的時間消耗為46秒,幾乎沒有差別。但是從HBase統計的IOPS來看, XEOS明顯高于HDFS。

    XSKY打造Hadoop HDFS高性能客戶端,構筑數據湖理想底座

    XSKY打造Hadoop HDFS高性能客戶端,構筑數據湖理想底座

    03客戶收益

    ▪ 計算存儲分離部署,按需擴容,大幅降低TCO;

    ▪ 更加優化的性能,以及企業級存儲特性;

    ▪ 適用于大數據平臺的容災備份;

    ▪ 同時支持生產業務、Hadoop、MPP、AI等計算業務,解決數據孤島問題;

    ▪ 一套存儲系統,承載多個異構平臺的數據整合,加速數據流動;

    ▪ NFS、HDFS、S3三種協議互通,三種協議來源的數據都可以統一進行in-place分析,分析結果可以通過S3實時發布。

    XSKY目前已經實現塊、文件、對象、HDFS支持,為企業用戶構建了真正統一的數據存儲平臺,可實現用戶從核心生產到海量數據分析的最大化數據整合,助力構筑企業數據湖理想底座!

    繼續閱讀
    關鍵詞 :
    XSKY Hadoop 數據湖
    中國存儲網聲明:此文觀點不代表本站立場,如有版權疑問請聯系我們。
    相關閱讀
    產品推薦
    頭條閱讀
    欄目熱點

    Copyright @ 2006-2019 ChinaStor.COM 版權所有 京ICP備14047533號

    中國存儲網

    存儲第一站,存儲門戶,存儲在線交流平臺

    俺去也导航