根據(jù)CERN開放實(shí)驗(yàn)室的白皮書,在未來(lái)幾年里,大數(shù)據(jù)是科學(xué)研究面臨的主要挑戰(zhàn)。CERN開放實(shí)驗(yàn)室是一家公私合營(yíng)機(jī)構(gòu),由歐洲核子研究組織(稱之為CERN)、IT公司和來(lái)自“人類大腦計(jì)劃”的歐洲實(shí)驗(yàn)室和研究者共同合作經(jīng)營(yíng)。
合作者定義了六大挑戰(zhàn),涵蓋了IT基礎(chǔ)設(shè)施的關(guān)鍵需求:數(shù)據(jù)采集、計(jì)算平臺(tái)、數(shù)據(jù)存儲(chǔ)架構(gòu)、計(jì)算配置和管理、網(wǎng)絡(luò)、通信和數(shù)據(jù)分析。
白皮書還將科研團(tuán)體的大數(shù)據(jù)挑戰(zhàn)分為幾類:收集和分析數(shù)據(jù)以支持科學(xué)研究;開發(fā)具有成本效益和安全性能的計(jì)算機(jī)基礎(chǔ)設(shè)施來(lái)處理大量的數(shù)據(jù);進(jìn)行準(zhǔn)確的模擬,在成千上萬(wàn)的科學(xué)家和工程師之間共享數(shù)據(jù)。
這些新出現(xiàn)的問(wèn)題需要科學(xué)家和工程師具備新的技能。報(bào)告指出,“重要的是,新一代科學(xué)家和工程師在現(xiàn)代并行編程、統(tǒng)計(jì)方法、數(shù)據(jù)分析、高效資源利用,以及洞察看似獨(dú)立領(lǐng)域之間的可能聯(lián)系等方面具有足夠的技能和專業(yè)知識(shí)”。
白皮書展示了每一個(gè)挑戰(zhàn)在不同領(lǐng)域的應(yīng)用實(shí)例。
1.數(shù)據(jù)采集
研究人員需要能訪問(wèn)具有更大的數(shù)據(jù)集的高性能計(jì)算資源,并與分散的科學(xué)團(tuán)隊(duì)合作。
然而,防火墻保護(hù)電子郵件、瀏覽網(wǎng)頁(yè)和其他應(yīng)用程序可能會(huì)導(dǎo)致TCP / IP網(wǎng)絡(luò)內(nèi)數(shù)據(jù)包丟失,這會(huì)大大減緩數(shù)據(jù)傳輸速度,逐漸趨緩的數(shù)據(jù)傳輸達(dá)到一定臨界點(diǎn),將會(huì)使得在線交互協(xié)作難以進(jìn)行。路由器和交換機(jī)沒(méi)有足夠的高速內(nèi)存來(lái)處理大的流量突發(fā),同樣會(huì)導(dǎo)致相同的問(wèn)題。
科學(xué)研究需要更復(fù)雜的和靈活的收集、過(guò)濾及通過(guò)高速網(wǎng)絡(luò)存儲(chǔ)數(shù)據(jù)的手段。預(yù)計(jì)未來(lái)的計(jì)算機(jī)系統(tǒng)應(yīng)該能實(shí)現(xiàn)計(jì)算理論和算法創(chuàng)新等變化。此外,可以通過(guò)用高性能商用處理器和高效的軟件代替定制的電子產(chǎn)品來(lái)減少成本和降低復(fù)雜性。
2.計(jì)算平臺(tái)
運(yùn)行超級(jí)計(jì)算機(jī)需要的大量空間和能源,已經(jīng)成了處理能力提升的限制因素。報(bào)告稱,現(xiàn)在只能利用多核平臺(tái)或新的通用圖形處理器增加處理能力,但是要做到這一切,現(xiàn)有的軟件必須優(yōu)化甚至重新設(shè)計(jì)。
為了解決這個(gè)問(wèn)題,桑迪亞國(guó)家實(shí)驗(yàn)室宣布啟動(dòng)了一個(gè)項(xiàng)目:開發(fā)低成本、低功耗、計(jì)算速度更快的新型超級(jí)計(jì)算機(jī)。正在研究的技術(shù)包括:納米計(jì)算、量子計(jì)算和智能計(jì)算(能自我學(xué)習(xí)的計(jì)算機(jī))等。
桑迪亞的計(jì)算研究中心負(fù)責(zé)人羅布利蘭說(shuō),“我們認(rèn)為,結(jié)合微電子和計(jì)算機(jī)體系結(jié)構(gòu)中的能力,桑迪亞可以很快跨越到下一個(gè)技術(shù)曲線,并且風(fēng)險(xiǎn)更小”。
該項(xiàng)目超越了摩爾定律。進(jìn)而解決了原本巨大的能源消耗,可能會(huì)威脅到未來(lái)的計(jì)算機(jī)的實(shí)用性。
3.數(shù)據(jù)存儲(chǔ)架構(gòu)
如今,大多數(shù)物理數(shù)據(jù)都是基于自定義的解決方案存儲(chǔ)。然而,云存儲(chǔ)架構(gòu),如亞馬遜的簡(jiǎn)單存儲(chǔ)服務(wù)(S3),可提供可擴(kuò)展的和更有成本優(yōu)勢(shì)的替代方案。
科學(xué)界需要更靈活,具有成本優(yōu)勢(shì)的云存儲(chǔ)空間,以此優(yōu)化應(yīng)用程序的存儲(chǔ)架構(gòu)。可靠、有效和具有成本效益的設(shè)計(jì)數(shù)據(jù)存儲(chǔ)架構(gòu),必須適應(yīng)各種應(yīng)用程序和用戶的不同需求。
4.計(jì)算管理和配置
高性能計(jì)算需要自動(dòng)化和虛擬化以管理日益增長(zhǎng)的數(shù)據(jù),而不需要更多的人力投入。與此同時(shí),對(duì)資源的內(nèi)部訪問(wèn)和跨學(xué)科間的數(shù)據(jù)訪問(wèn)必須安全、透明,才能促進(jìn)合作。
科研機(jī)構(gòu)解決這個(gè)問(wèn)題的一個(gè)方法是通過(guò)分布式系統(tǒng),將一個(gè)問(wèn)題分成多個(gè)任務(wù),每個(gè)任務(wù)由一個(gè)或多個(gè)相互通信的計(jì)算機(jī)解決。網(wǎng)格計(jì)算(分布式計(jì)算的一種)支持跨多個(gè)管理域的計(jì)算和計(jì)算資源的虛擬化。
在美國(guó),由能源部和國(guó)家科學(xué)基金會(huì)共同資助的開放科學(xué)網(wǎng)格(OSG),被當(dāng)作高吞吐量網(wǎng)格使用——通過(guò)把科學(xué)問(wèn)題分解成大量可獨(dú)立運(yùn)行的單個(gè)任務(wù)以解決科學(xué)難題。OSG被用于設(shè)計(jì)布魯克海文國(guó)家實(shí)驗(yàn)室的一個(gè)新的高能電子對(duì)撞機(jī),就是一個(gè)例子。
5.網(wǎng)絡(luò)和通信
良好、可靠的網(wǎng)絡(luò)對(duì)科學(xué)研究至關(guān)重要。數(shù)據(jù)傳輸?shù)膬?yōu)化,需要新的基于軟件的網(wǎng)絡(luò)體系的結(jié)構(gòu)設(shè)計(jì)。例如,遷移公共IP地址的能力允許將應(yīng)用程序服務(wù)遷移到其他硬件。并且,智能化有線和無(wú)線網(wǎng)絡(luò),可以幫助網(wǎng)絡(luò)優(yōu)化其流量管理以提高服務(wù)和控制成本。
6.數(shù)據(jù)分析
數(shù)據(jù)如過(guò)于龐大和多元化,人類在一瞬間將無(wú)法全部理解。因此,必須有能從大數(shù)據(jù)中獲取價(jià)值,發(fā)現(xiàn)新的模式,進(jìn)而持續(xù)實(shí)現(xiàn)新的科學(xué)發(fā)現(xiàn)。
作為一種服務(wù),數(shù)據(jù)分析將包括近實(shí)時(shí)處理,批處理和數(shù)據(jù)存儲(chǔ)集成。一個(gè)理想的平臺(tái)將是一個(gè)有標(biāo)準(zhǔn)的、通用的框架,可以很容易地實(shí)現(xiàn)在數(shù)據(jù)層面和工具之間傳遞數(shù)據(jù),能使用最合適的解決方案進(jìn)行分析。除了CERN專有應(yīng)用程序,這些分析將用于工業(yè)控制系統(tǒng)、IT和網(wǎng)絡(luò)監(jiān)控。
Gabriel咨詢集團(tuán)的分析師奧爾茲稱,“為了在科學(xué)問(wèn)題上得到我們希望呈現(xiàn)的性能,我們需要有更高效的新技術(shù),而為這項(xiàng)新技術(shù)所付出的成本也要我們能夠負(fù)擔(dān)”。
譯自:2014年7月15日【美國(guó)】http://gcn.com/
編譯:工業(yè)和信息化部國(guó)際經(jīng)濟(jì)技術(shù)合作中心 李瑋
更多精彩內(nèi)容參見(jiàn)“中國(guó)經(jīng)濟(jì)網(wǎng)-國(guó)際頻道-國(guó)際IT行業(yè)資訊”