專欄文章

如何在公有雲上加速基因運算與 Big Data 保存

       國立陽明大學基因體科學研究所,是一所培育新世代生命科學研究及相關生物醫學技術尖端領域人才的搖籃,目前在所內的各項運算計畫,如蛋白體與代謝體研究、高等蛋白質體學、分子酵素學,人類基因定序等這類資料,需要大量的 CPU 運算、高速磁碟與大量空間來儲存計算結果。

       基因定序計算,在近年的生技醫療產業非常的盛行,隨著基因數據規模越來越大,對數據分析和數據儲存的需求也越來越多,而在進行臨床或學術規模的計算時,通常會以多人的全基因組來進行同時間的批次運算。

       在處理大量的基因樣本時,在調配運算與儲存資源就相當的重要,以目前資料來說,要完成單人的全基因組測序,平均會產生 1TB 以上的有效數據,在運算過程中也會不斷產生暫存數據,而通常這樣的數據規模,也不僅僅只有一個人的部分。除了需要大量的 CPU 進行運算,同時也亟需高傳輸的 I/O 及大型的儲存空間來保存運算後的資料,在這樣的前提與要求之下,還需要有一套良好的軟體框架或 API 來進行大量資源的調配。

       在傳統建構大型運算平台上,主要成本包括計算所需的基礎設施(機房建置或擴展計算能力)和計算軟體的本身所需要的成本,甚至可能需要專用的作業系統來用作平行計算的協調等等。而現今的應用場景,許多的企業或學術單位,已經開始思考能否轉用公有雲提供的服務當作平台,而不再需要自行建構基礎設施及軟體。

       影響這些關鍵的決策,首先最優先考量的是需要多少成本與評估建構時間,其次會考量所使用的技術,是否能讓現有的使用人員減少使用的磨合時間,結合以上的幾項考量之後,使用者多數考量改用雲服務作為首選。而管控成本,改善計算效率並提高數據價值一直以來都是各種產業長期追求的核心目標,要直接降低成本,目前有幾個項目可以提供給我們做為思考的方向:

● 改變使用軟體的方式:

使用 GATK 軟體更新運算方式,原本使用的程式碼稍加轉換便可套用新的方式。 GATK ( Genome Analysis Toolkit),一套用來分析 DNA sequencing data ,找尋 genomic variation 的工具,由 Broad Institute 開發,目前已被應用在幾個大計畫中,例如 1000 genomes project 、 TCGA(The Cancer Genome Atlas) 。

● 改變使用運算的方式:

1. 直接減少基礎設施的建置,最直接可以節省成本的最佳方式之一,取而代之的是透過雲計算平台來取代。

2. 運算規模能隨著需求隨時變動,變動的方式可由人為定義或由程式運算式來決定,舉例來說,算單人的基因用 10 個 CPU,算一百個人的基因,用 1,000 個 CPU 節省時間。

3. 可使用大量的運算資源減少其運算時間,同時也達到節省成本的目的。

4. 在需要的時候進行運算,不需要的時候可停用,甚至刪除,並可利用簡單的方式重複布建相同的環境。

● 長期數據的保存:

1. 提供儲存性價格比更高,且無須擔心空間不足的存儲平台。

2. 提供高可靠性與穩定性。

3. I/O 能依照需求進行調整。

4. 提供高安全性的加密方式,確保隱私資料不外洩。

       利用公有雲提供的服務平台,使用者能快速靈活且節省布建運算資源,也不需要在初期建構大量的硬體,再通過傳統的方式來維護更新管理這些硬體,彈性配置所需要使用的資源,減少支出。

       新的技術背後,我們會思考如何以雲端業者取代自建服務,轉使用雲端業者建構好的 API 或開箱即可用的服務,由於技術的更新,在以前難以企及的範圍內,透過 API 呼叫對應的功能,並確認需求單位元的流程及商業邏輯,變得更容易使用與交互。

       簡言之,從以前繁雜的大規模運算要先建構硬體,安裝軟體,進行資源調配;簡化成只需要簡單的部署與學習基本使用的方式,便能有對應的服務可以使用,而不需要透過瞭解底層架構的建置,申請繁複的建置流程,甚至擴建運算單元,才能進行大規模的運算。

       轉換為雲端思維後,許多情況都能透過開箱即可用的服務,迎刃而解,舉例來說,Amazon Batch 將大量的批次運算工作,簡化為使用單純的指令結合 Amazon Elastic Container Service (Amazon ECS) 的容器化技術,包裝進 GATK 運算框架,整合成一個服務並可提供 API 的方式串接,同時提供水準擴展運算,並將計算後的結果儲存於 Amazon Simple Storage Service (Amazon S3),此外運算使用的 CPU 也能選擇適用的機種,如果程式想要調用 GPU 進行加速,僅需要替換適合的運算機型,便可完成變更,除此之外,也方便進行成本控管。這樣彈性化的調整,可以完全符合使用者的運算需求,不需要擔心運算能力不足,或是資源配置太高,而造成大材小用的問題。

       最後,運算後的資料,將統一透過可擴展性、資料可用性、安全性及兼具效能的 Amazon Simple Storage Service (Amazon S3) 進行存放與歸檔,如果這批資料要分享給國外的公司或是學術單位進行再利用,也能利用方便且安全的方式共用資料,不用擔心頻寬或檔案大小的問題。

       然而,在眾多的雲服務商之中挑選適合的服務再整合應用到內部的情境中,是相當繁雜的過程。

       銓鍇國際身為 AWS 認證合作夥伴之一,協助研究單位進行基因體運算的流程改善,有效的節省硬體建置費用,減少取得計算後的時間,改善以往難以使用運算資源還要透過申請,配發資源才能運算等情況,需要的時候進行計算,取得資料後,計算平臺便可關閉,等待有需要的時候再開始計算,大幅度減少計算或耗費的計算成本。

       銓鍇國際將協助整合 AI 開發及 DevOps 自動化流程、地端機房與雲端機房的 AI 運算資源配置、針對雲端 AI 所利用資料的安全性,協助利用公有雲的技術自動化作保護等等。在公有雲提供的架構下,透過上述幾種層面的交互利用,不管是專業 IT 公司或非 IT 專業的公司也能輕鬆的從其中挑選適合自己的 AI 開發模式,進而提升企業競爭力。

 

最新文章

加入 Line 好友 加入 Line 好友 歡迎來聊聊 寄信給我們 訂閱電子報
joinline