【IT168 評論】天河二號在超算領(lǐng)域是一個非常響亮的名字。相比于前輩天河一號和天河一號A來說,天河二號已經(jīng)連續(xù)兩屆獲得TOP500超級計算機排名的冠軍,而在落戶廣州之后它的應(yīng)用也在逐漸展開。不過因為應(yīng)用與安全的關(guān)系,天河二號一直處于“猶抱琵琶半遮面”的狀態(tài),很少有媒體能夠?qū)ζ鋺?yīng)用環(huán)境與應(yīng)用軟件進行詳細的解讀。近日,2014年ASC世界大學(xué)生超級計算機競賽總決賽在廣州中山大學(xué)展開,我們也有機會近距離接觸到了位于國家超級計算廣州中心(中山大學(xué)東校區(qū)內(nèi))的天河二號超級計算機。更幸運的是,我有機會對國家超級計算廣州中心(以下簡稱廣州超算中心)主任袁學(xué)鋒教授進行了長達2個小時的專訪,從而揭開了天河二號神秘的面紗。
天河二號的現(xiàn)實意義與應(yīng)用方向
據(jù)了解,天河二號的總造價成本高達18億元人民幣,這筆資金來自包括廣東省和廣州市在內(nèi)的國家部委和地區(qū)支持。有了世界一流的硬件設(shè)置,如何將這些硬件設(shè)備應(yīng)用好,使它切實為用戶服務(wù)就成為了廣州超算中心首要考慮的問題。目前,廣州超算中心的核心目標是要建成集高性能計算、海量信息存儲和處理服務(wù)能力為一體的世界一流的數(shù)據(jù)中心。廣州超算中心的宗旨是立足廣州、面向全國、向世界開放計算資源。
在談到目前天河二號的應(yīng)用案例時,袁學(xué)鋒主任重點談到了以下4個方面:
1、數(shù)字執(zhí)照——目前世界上都在醞釀著所謂的第三次產(chǎn)業(yè)革命,其核心的內(nèi)容就是如何把信息技術(shù)向制造業(yè)、實體經(jīng)濟輻射。所以如何將信息技術(shù)轉(zhuǎn)化為生產(chǎn)力,是廣州超算中心在應(yīng)用方面的核心內(nèi)容,而且是衡量一個國家創(chuàng)新型經(jīng)濟競爭能力的核心內(nèi)容。
2、地球和諧環(huán)境工程——這里包括了地球生物、地殼運動、地表、海洋、大氣和天文,為這些應(yīng)用和科學(xué)研究提供平臺。
3、材料科學(xué)與工程平臺——以當下熱門的3D打印為例,就是通過材料實現(xiàn)了對于制造業(yè)的顛覆性創(chuàng)新,從這一點來說廣州超算中心可以提供在材料和制造方面的高性能計算能力。
4、醫(yī)藥和個性化醫(yī)療平臺——目前廣州超算中心已經(jīng)與世界領(lǐng)先的基因公司華大基因展開基于基因科學(xué)的合作內(nèi)容,將醫(yī)療與基因工程集成化、個性化,這其中牽扯大數(shù)據(jù)、高性能計算的東西,還有云計算技術(shù)等多項內(nèi)容,廣州超算中心則負責所有數(shù)據(jù)的匯總與分析。
除了上述4點之外,廣州超算中心還負責廣東省的政務(wù)云系統(tǒng),包括電子政務(wù)、電子教育、電子醫(yī)療、電子環(huán)境、電子災(zāi)害預(yù)報等內(nèi)容都將在天河二號上實現(xiàn)。不過袁學(xué)鋒主任也表示,這只是天河二號所承擔的非常小的業(yè)務(wù)內(nèi)容,這部分業(yè)務(wù)在天河二號目前的應(yīng)用占比中不到10%。
天河二號系統(tǒng)如何實現(xiàn)商業(yè)化
無論是中國還是歐美、日本這樣的超算大國,在超算中心商業(yè)化的問題上都遇到了困難,幾乎所有的超算中心都需要政府的財政支持。對于天河二號這樣龐大的系統(tǒng)來說,如何實現(xiàn)這商業(yè)化的盈利也成為了我們非常關(guān)心的問題。
袁學(xué)鋒主任在回答問題之前,首先肯定了廣州超算中心是一家公益性事業(yè)單位,正是這樣獨特的屬性也決定了廣州超算中心與眾不同的發(fā)展路線。他表示,廣州超算中心一個很重要的使命,是要在科技體制創(chuàng)新過程中,擔當試驗田。一方面,廣州超算中心作為國家級的超算中心,會有政府的財政支持,但是這不足以從根本上解決超算中心的經(jīng)濟來源問題,甚至可以說是杯水車薪。因此,超算中心只能從自身實際出發(fā),探索獨特的發(fā)現(xiàn)路線。
在談到商業(yè)化的方式時,袁學(xué)鋒主任表示超算中心將會從3個方面著手:
1、廣州超算中心負責廣東省的電子政務(wù)內(nèi)容,這部分收入較為穩(wěn)定,不過只占到超算中心成本的10%。
2、促進產(chǎn)業(yè)的擴大與發(fā)展——廣州超算中心的主要任務(wù)是促進高性能計算的發(fā)展和應(yīng)用的普及,作為提供計算的平臺,超算中心不能有過高的收費,否則將會阻礙平臺上企業(yè)的發(fā)展。因此,廣州超算中心在這一方面投入了20%的資源,其目的就是鼓勵更多的創(chuàng)業(yè)者和中小企業(yè)能夠加入超算的平臺。
3、完全的市場化運作——除上面2個方面之外,大約有70%的資源都會應(yīng)用在這個方向,這也是廣州超算中心的主要盈利點。正如之前介紹的那樣,廣州超算中心不以盈利為目標,通過吸納眾多的中小客戶加入,讓這些客戶在超算平臺上成長壯大,形成產(chǎn)業(yè)化、規(guī)?;M而成為超算中心的的主要增長點。
天河二號為什么會選擇Intel Xeon Phi?
NVIDIA在2007年正式發(fā)布了CUDA架構(gòu),時至今日CUDA已經(jīng)成為許多超算從業(yè)者的必修課程;隨著NVIDIA在GeForce、Tegra等家用和手持設(shè)備上對于CUDA的支持,學(xué)習(xí)CUDA編程已經(jīng)是輕而易舉的事情,這也使GPU計算成為了高性能計算中最重要的異構(gòu)計算模式。不過在天河二號中,卻并沒有使用GPU計算,轉(zhuǎn)而選擇了英特爾提供的Xeon Phi解決方案。
相比GPU加速方案來說,英特爾的Xeon Phi解決方案正式發(fā)布只有一年多的時間,在應(yīng)用范圍和生態(tài)系統(tǒng)方面還落后于GPU計算,那么為什么天河二號會采用這樣的加速方案呢?袁學(xué)鋒主任解釋說——Xeon Phi最大的優(yōu)勢就是在于架構(gòu)方面,因為Xeon Phi與x86處理器在架構(gòu)上是一致的,因此原有的運行的x86處理器上的代碼可以不加修改就應(yīng)用在Xeon Phi上,這相比需要使用CUDA編程才能運行的GPU加速方案來說在應(yīng)用上會更為方便。
不過袁學(xué)鋒主任同時也表示,Xeon Phi僅僅是在上手的時候更快一些,如果需要真正實現(xiàn)硬件的充分運行甚至達到峰值性能,還需要在代碼上進行大量的優(yōu)化。而這個工作是非常繁重而辛苦的,相比CUDA優(yōu)化來說,Xeon Phi的架構(gòu)在這里并沒有起到優(yōu)勢——如果想真正的用好超級計算機,無論是Xeon Phi還是Tesla都需要大量的優(yōu)化,這一點誰也回避不了,想要實現(xiàn)Xeon Phi的充分運行,所花費的精力不會比在GPU上更少。雖然當下看來,CUDA良好的普及程度和廣泛的用戶群依然對于Xeon Phi形成了優(yōu)勢;而從未來的發(fā)展來說,Xeon Phi的生態(tài)系統(tǒng)也將進一步完善?!盎蛟S過4、5年之后,再看這個問題就完全不一樣了”。
天河二號每核心時成本只要1毛5
作為龐大的超級計算機系統(tǒng),除了建設(shè)的巨額投資之外,日常的維護費用也必然是天文數(shù)字。袁學(xué)鋒主任曾這樣描繪天河二號系統(tǒng)滿載下的24小時耗電量——每天一臺奧迪汽車。據(jù)統(tǒng)計,包括供電、散熱、網(wǎng)絡(luò)、運維等成本在內(nèi),天河二號系統(tǒng)滿載的每天耗費是40萬人民幣,不過目前系統(tǒng)的負載率只有50%左右,所以耗費也相應(yīng)降低。
談到成本問額,袁學(xué)鋒主任表示如果能夠在天河二號上實現(xiàn)每核心時0.15元人民幣(1毛5分錢)的收入,就可以實現(xiàn)收支平衡。乍一聽起來這金額并不夸張,但是考慮到天河二號312萬個計算核心來說,這個數(shù)字就相當驚人了。不過目前世界范圍內(nèi)的超算中心負載程度都不高,如果能夠達到50-60%的負載率就可以實現(xiàn)盈利,超過70%的負載率就需要升級系統(tǒng)了,否則就會影響到運算效率。
作為面向全社會開放的超級計算資源,天河二號也計劃在2個月后正式面向普通市民開放。市民可以通過提交申請表和計算課題,在審核通過后就可以免費試用天河二號10萬核心時的資源。袁學(xué)鋒主任認為通過這種方式可以讓大家更近距離的接觸超級計算機,接觸高性能計算,從而實現(xiàn)對于整個產(chǎn)業(yè)的推動作用。與此同時,當廣州超算中心的二層(天河二號所在的樓層)正式建設(shè)完畢后,也將向社會開放參觀,希望將超算中心打造成青少年科普基地。
天河二號的已運行國產(chǎn)大飛機應(yīng)用
面對如此龐大的超級計算機,供電和散熱都是首先需要考慮的問題,而且還必須考慮到周邊環(huán)境的安全。袁學(xué)鋒主任透露,目前天河二號使用了3條供電線路,而散熱系統(tǒng)使用的是水冷和風冷并行的方式。面對如此龐大的系統(tǒng)和如此巨大的日常消耗,天河二號究竟在實現(xiàn)哪些計算呢?袁學(xué)鋒主任重點談到了以下3大應(yīng)用:
1、國產(chǎn)飛機——中國商飛(中國商用飛機有限責任公司)已經(jīng)在天河二號上實現(xiàn)了C919的運行模擬,這是一款與波音737類似的中型客機。
2、氣候模擬——包括國際范圍內(nèi)的大氣模擬和高鐵相關(guān)的隧道氣流模擬應(yīng)用。
3、生育模擬——蛋白氨基酸的模擬與鈣離子通道模擬。
袁學(xué)鋒主任表示,除了這些商業(yè)化的應(yīng)用之外,國家863課題組也將在天河二號上進行大量項目的模擬計算工作,未來天河二號的二期工程也將啟動。
后記:
天河二號是當下世界上運行速度最快的超級計算機,在本次采訪中我們了解到了之前未曾披露的諸多細節(jié),特別是天河二號上大量應(yīng)用的出現(xiàn)說明我國在高性能計算的軟件應(yīng)用領(lǐng)域也開始進入高速增長的態(tài)勢。袁學(xué)鋒主任對于天河二號充滿了熱情與期待,在采訪的最后,他說——“沖擊TOP500的第一名不是我們的目的,當然能夠獲得更好。但是對我來說在我看來,包括整個設(shè)計團隊對排名看得不是很重要,看重的還是應(yīng)用問題。外國人老說我們的Linpack第一,應(yīng)用好像我們無聲無息,這個對我們壓力比較大。我們很大的任務(wù)是要一定證明,我們做應(yīng)用也可以”。