1. 全國統一服務電話 400-108-0268

        海量數據的高可靠存儲、高性能IO解決之道

        基因大數據解決方案

        需求分析
          近二十年來生命科學研究快速發展,產生了包括基因組學、轉錄組學、蛋白質組學、代謝組學等“生物大數據”,尤其以基因組學和蛋白質組學數據為核心的組學大數據增長速度遠超很多其他領域。隨著基因測序技術的飛速發展,人類發現的基因序列數目按照指數級增長,比如1個人的基因數據為1.5T,100萬人的數據將有1EB,面對如此數量龐大的基因進行同源性搜尋、比對、分析、遺傳發育分析等等,以及數據的傳輸、計算、共享、讀取性能,都會成為巨大的挑戰。

          從存儲角度來看,基因大數據具有以下特點:

          每個基因數據文件的大小在幾GB到幾十GB不等,在進行基因檢測和分析時讀寫性能要求高;

          基因數據規模增長非???,其在總成本中占有的比例也在不斷增大。

          基因數據存儲周期長,在采集后的最初幾個月內會被頻繁訪問,對于數據實時的響應性要求極高。即使歸檔的基因數據,也時常會被“解凍”用于基因分析。

          具有競爭力的基因數據處理的存儲方案應具有如下特征:


        解決方案

          下圖為基于霄云碧海存儲系統的基因大數據存儲方案示例。



          碧海存儲系統支持以太網和Infiniband網絡,支持NFS、FTP、Linux FUSE、SDK等多種方式訪問數據。

        方案優勢
          ■ 存儲容量擴展能力強
          基因數據的快速膨脹,需要存儲系統具有良好的彈性擴展能力。碧海存儲系統的存儲容量和吞吐量可以隨存儲節點的增加而線性擴展,系統容量可平滑擴展至64PB。增加存儲節點不會導致數據服務中斷,并且擴展過程簡單易行。加入新存儲節點后,碧海存儲系統會自動均衡現有數據。高可擴展特性非常適合基因數據快速增長、高性能訪問、存儲周期長的特點。

          ■ 數據導入速度快
          碧海存儲系統具有業界領先的優異性能,單個節點即可提供高達2GB/s的讀寫速率,多個存儲節點性能可成倍增長,數GB的基因文件能夠以秒級的數據導入導出,大幅降低基因計算過程中數據導入和導出時間。即使歷史歸檔的基因數據,導入速度也與“熱”數據幾乎無差異。

          ■ 降低基因數據存儲成本
          海量基因數據存儲成本是必須考慮的重要因素。大部分基因大數據科研機構和企業因為FC SAN/FC NAS的成本高昂而不得不采用成本較低的服務器存儲模式,但這又造成了基因數據的隔離和管理困難。碧海存儲系統采用標準的商用服務器搭建的海量存儲系統,既成本明顯低于FC SAN/FC NAS,又為基因數據的統一存儲和管理帶來極大便利。

          ■ 數據可靠性
          霄云碧海存儲系統采用基于策略的多副本機制和糾刪碼技術來保護文件數據。任何小于副本數量的部件損壞,都不會造成數據服務的終止和數據的丟失。此外,碧海存儲系統會實時和周期性地對數據進行檢查,并自適應地對不一致數據進行及時修復。

          ■ 易管理
          基因數據管理員通常并非專業IT人員,復雜的存儲系統操作過程會影響工作效率。碧海存儲系統基于Web的圖形化管理平臺,簡潔明了,管理員可輕松掌握管理系統,提高工作效率,節省時間成本。


        亚洲成a人无码亚洲成a无码,无码午夜福利片在线观看,免费观看中日高清生活片,久久亚洲精品无码