歷史悠久、學(xué)科門(mén)類(lèi)齊全的某高校,在 “雙一流” 建設(shè)的推進(jìn)過(guò)程中,對(duì)教學(xué)、科研和校園管理等方面的 IT 基礎(chǔ)設(shè)施能力提出了更高的要求。

該高校注重培養(yǎng)學(xué)生的實(shí)踐能力和創(chuàng)新思維,虛擬實(shí)驗(yàn)與仿真教學(xué)、人工智能與大數(shù)據(jù)課程實(shí)踐等新興教學(xué)方式正在推廣應(yīng)用,重點(diǎn)科研項(xiàng)目涉及大數(shù)據(jù)處理與分析、復(fù)雜模型訓(xùn)練與模擬等多個(gè)前沿領(lǐng)域,對(duì)于 HPC 算力、AI 算力的需求不斷提升。與此同時(shí),校園信息化管理平臺(tái)承載越來(lái)越多的系統(tǒng)與應(yīng)用,不同院系的教學(xué)、實(shí)驗(yàn)與特色課程也常常需要臨時(shí)的資源。
面對(duì) AI 發(fā)展大潮,該高校希望通過(guò)整體的 IT 規(guī)劃與建設(shè),既解決當(dāng)下資源緊張、管理運(yùn)維復(fù)雜等問(wèn)題,又能確保師生的新需求在短時(shí)間內(nèi)得到滿(mǎn)足。帶著這一清晰明確的目標(biāo),該高校與青云科技展開(kāi)了深入交流,共同探討并制定了涵蓋資源配置、技術(shù)架構(gòu)等多方面的細(xì)致設(shè)計(jì)及實(shí)施規(guī)劃,穩(wěn)步推進(jìn)校園多元算力平臺(tái)的建設(shè)。
三算合一,解決多元異構(gòu)資源管理難題
通過(guò)青云 AI 智算平臺(tái)的技術(shù)支持,該高校以一個(gè)平臺(tái)統(tǒng)一管理通用計(jì)算、高性能計(jì)算和智能計(jì)算,為高校的教學(xué)、科研和校園管理提供一站式算力支持。既可以滿(mǎn)足虛擬實(shí)驗(yàn)、復(fù)雜模型模擬等對(duì)高性能計(jì)算的需求,又能支持在線教學(xué)平臺(tái)、校園管理系統(tǒng)等通用計(jì)算任務(wù),也有效支撐了 AI 相關(guān)探索與研究。
特別是針對(duì)高校擁有的大量異構(gòu)硬件資源,青云以強(qiáng)大的異構(gòu)資源管理與調(diào)度能力,幫助該高校統(tǒng)一納管多種異構(gòu)服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等設(shè)備,形成統(tǒng)一資源池,方便管理員統(tǒng)一管理的同時(shí),結(jié)合平臺(tái)的監(jiān)控與故障自愈能力,也有效降低了運(yùn)維壓力,輕松支撐信創(chuàng)需求。
如此一來(lái),師生滿(mǎn)意度得到了大幅提升。一方面,平臺(tái)通過(guò)合理調(diào)配 IT 資源,輕松應(yīng)對(duì)高并發(fā)訪問(wèn)需求,系統(tǒng)始終保持快速響應(yīng),師生在線辦理教學(xué)、教務(wù)等相關(guān)業(yè)務(wù)時(shí),不再出現(xiàn)卡頓。另一方面,平臺(tái)擁有統(tǒng)一的賬號(hào)管理系統(tǒng),可以設(shè)置不同的權(quán)限,師生可以自助申請(qǐng)所需的智算、通算及 HPC 資源,獲得資源的速度和便捷性大幅提升。
三大核心產(chǎn)品,引領(lǐng)無(wú)界算力新時(shí)代
該高校面臨著智算資源緊張的現(xiàn)狀,比如,人工智能課程實(shí)踐,會(huì)出現(xiàn)多個(gè)學(xué)生同時(shí)進(jìn)行不同規(guī)模的深度學(xué)習(xí)模型訓(xùn)練。通過(guò)平臺(tái)的 GPU 切分功能,可以將一塊 GPU 合理切分成多個(gè)虛擬 GPU 資源,分配給不同的學(xué)生使用。每個(gè)學(xué)生都能獲得滿(mǎn)足其模型訓(xùn)練需求的算力支持,避免了因 GPU 資源獨(dú)占導(dǎo)致的資源浪費(fèi)和其他學(xué)生等待的問(wèn)題,極大提高了 GPU 資源的利用率。
與此同時(shí),當(dāng)臨時(shí)算力的需求瞬間增大時(shí),平臺(tái)能夠?qū)崟r(shí)監(jiān)測(cè)到資源的使用情況,并迅速?gòu)馁Y源池中調(diào)配額外的計(jì)算資源,實(shí)現(xiàn)即時(shí)擴(kuò)容;而當(dāng)作業(yè)任務(wù)接近尾聲,算力需求降低時(shí),平臺(tái)又能自動(dòng)縮容,將多余的資源釋放回資源池,這些回收的資源可以被重新分配給其他有需求的系統(tǒng)或任務(wù),避免資源閑置浪費(fèi)。
負(fù)責(zé)信息管理中心的老師表示,通過(guò)校園多元算力平臺(tái),學(xué)校實(shí)現(xiàn)資源的高效利用,減少了大量關(guān)于資源的協(xié)調(diào)與溝通工作,同時(shí)標(biāo)準(zhǔn)化管理也能讓資源使用更規(guī)范。更讓他滿(mǎn)意的是,青云支持搭建開(kāi)放應(yīng)用框架,引入新的教學(xué)、科研或校園管理應(yīng)用系統(tǒng)時(shí),兼容和集成變得更簡(jiǎn)單了,他很有信心在 AI 技術(shù)的幫助下,為學(xué)校的數(shù)智化建設(shè)提供更有力的支撐。
目前,學(xué)校也在計(jì)劃探索高校算力聯(lián)營(yíng),推動(dòng)與周邊高校間的算力互聯(lián)互通,實(shí)現(xiàn)學(xué)校間互通有無(wú),甚至是對(duì)校外的機(jī)構(gòu)和企業(yè)開(kāi)放服務(wù),實(shí)現(xiàn)多方共贏。
青云將繼續(xù)與該高校深化合作,助力學(xué)校在 “雙一流” 建設(shè)的道路上邁出更加堅(jiān)實(shí)的步伐,同時(shí)也為推動(dòng)我國(guó)高等教育的數(shù)智化轉(zhuǎn)型和高質(zhì)量發(fā)展貢獻(xiàn)力量。