優勢
支援混合雲
本地集群與公有雲直接聯動,快速實現混合雲模式;公有雲計算資源可根據使用者需求彈性伸縮;隨取隨用,無需排隊。
私有集群管理
快速部署,集中管理,統一調度
一站式管家服務
為使用者優化、定制應用軟體和集群管理軟體;輸入IP位址、用戶名、密碼,一鍵連結使用者定制集群;線上使用資料檔案、應用軟體、計算資源、儲存資源、線上監控等功能;7*24小時線上服務。
支援多種架構
支援X86和ARM64架構伺服器
支援多種AI開源框架
支援TensorFlow,Caffe等框架
GPU監控與調度
支援GPU單卡&多卡的共用、獨佔
主要功能
CHESS採用模組化設計,可根據用戶需求自由選擇模組組合,包括部署模組、集群管理模組、監控模組、作業調度模組、混合雲模組、報表模組、統計報表與計費模組和WEB門戶。
部署模組
説明系統管理員高效、便捷部署集群節點作業系統、軟體應用。
- 批量安裝、快速部署;
- 提供節點彈性擴展、動態伸縮;
- 支援系統備份與恢復功能;
- 針對不同節點分發相應系統鏡像、定制套裝軟體;
- 作業系統、管理軟體、應用環境統一部署。
集群管理模組
提供節點管理、並行命令、遠端開關機等功能,通過Web實現NFS共用目錄管理,操作日誌以及開關機記錄。
- 節點角色管理
勾選角色欄字母(M/I/E/T),一鍵完成節點角色切換。 - 查看節點狀態,完成節點操作
可查看節點資訊,包括是否線上,是否允許提交作業,單機或批量節點操作(刪除、開機、關機、重啟、新增鏡像、恢復節點、SSH、VNC等)。 - 共用目錄管理
通過WEB頁面創建共用目錄、編輯掛載點,避免複雜NFS共用檔案系統配置。 - 作業系統鏡像
支援節點系統鏡像管理,一鍵恢復作業系統。 - 集群操作日誌查詢
查看對集群的鏡像/機器操作的內容、時間、結果、使用者等資訊。
監控模組
系統管理員可即時監控物理機櫃視圖,直觀查看系統集群、節點運行和資源使用情況;支援頁面、郵件報警,支援報警閾值設置。
- 直觀的集群監控
真實物理機櫃視圖展示節點排放位置,顯示節點狀態資訊指示燈,包括負載、是否線上、CPU溫度等資訊。 - 集群/節點性能狀態監控
即時監控某一時間內集群/節點CPU、記憶體、交換分區、網路、磁片、負載等性能指標,及時掌握集群狀態。 - 檔案系統使用情況
可查看集群共用目錄清單、每個共用目錄下的掛載點列表和運行詳情。 - 故障報警通知
節點故障或CPU、記憶體等指標負載過高時,發送頁面報警或郵件報警通知,支援歷史報警資訊查詢。 - 報警閾值設置
配置不同報警閾值,靈活應對變化。 - 性能分析
設置待查看節點性能參數,按日期進行即時視圖展示。 - GPU卡性能監控
可監控每塊GPU卡的性能指標。
作業調度模組
優化集群系統軟硬體資源,減少作業回應時間,支援多種作業提交範本,簡化集群資源管理,清晰查看節點CPU使用情況,合理配置資源管理器,Web端線上編輯、刪除、壓縮腳本。
- 作業管理列表
統一查看、刪除、終止作業提交狀態、佇列以及所有者資訊。 - 配置計算節點清單
可查看集群節點核數、節點CPU核數使用情況,控制節點資源,修改節點屬性。 - 配置調度策略
提供資源提前預留、Backfill演算法、動態優先順序、公平共用、配額管理、系統診斷、系統監測和統計等功能,支援QoS和基於策略的調度,支援搶佔策略;重要作業可優先使用集群資源。 - 實現資源預留
為用户预留计算节点资源使用时间,保证作业在特定的时间内有可用的计算资源。 - 靈活作業提交方式
支援多種作業提交方式:命令列、Web介面、應用軟體集成介面、作業腳本和可執行檔等多種提交方式。常用應用程式可設置為範本。 - 完善的文件管理
新建、編輯、上傳、下載、複製、剪切、粘貼、壓縮、解壓Linux系統檔,操作簡便。 - 應用範本
提交作業時可選擇對應種類範本,並可創建新應用範本。
混合雲模組
混合雲管理,滿足集群資料計算需求,按需擴展,靈活部署,實現與公有雲計算的集成。
- 混合雲節點管理
通過Web介面查看、管理節點基本資訊,包括節點主機名稱、MAC位址、IP位址、角色、規格、狀態、和創建時間等。 - 雲節點申請
按需選擇、申請公有雲節點類型、配置,按照包年/包月、按需計費等方式進行價格核算;申請完成後可在混合雲節點查看相關資訊。 - 雲節點操作
節點的管理操作包含:開機、關機、強制關機、重啟、強制重啟和釋放。 - 雲儲存管理
雲儲存空間用於作業運行時讀寫共用資料;可在公有雲上直接創建NAS儲存,掛載至公有雲節點,並可按需隨時刪減。
報表統計與計費
報表系統為使用者提供詳細、豐富的資料資源統計功能,包括報表總覽、單個報表詳情等,可匯出PDF、HTML、Excel格式。
- 集群計算資源使用統計
可生成集群系統CPU、記憶體、交換分區、儲存使用率資料包表,和已完成作業、運行中作業、等待處理作業資料包表。 - 統計資源消費、靈活設置費率
結合用戶(組)的CPU使用時間、執行時間,靈活設置收費費率,生成帳單,提供列印、查詢功能。
Web Portal
通過Web Portal將集群管理、集群監控、作業調度管理、集群報表、混合雲等各個功能模組的介面統一起來,實現了聯科自主研發軟體的統一登錄,提供用戶管理和許可權管理功能,管理員可給使用者設置各個模組的存取權限。實現集群管理、集群監控、作業調度管理、集群報表、混合雲等各功能模組Web端介面統一登錄,按需分配使用者管理許可權。
- 許可權設定
集群管理、作業調度、集群監控、報表統計模組分為管理員、使用者兩種許可權,管理員可由Web端介面按需設置使用者存取權限,分配使用者可用的功能模組。 - 服務管理
提供服務監控功能,查看服務運行狀態、時間、CPU利用率、記憶體佔用率,按需啟動、終止、監控、禁止監控服務專案。 - 用戶及群組
Web端介面設置使用者目錄,提供新建、編輯、刪除用戶(組)功能,查看用戶隸屬組別,修改組別密碼等。
行業應用
CHESS HPC混合雲平台可廣泛應用於航天、汽車、電子、教育、科研、石油、氣象、生命科學、製造業、人工智慧等計算能力高需求領域。
- 製造行業:Ansys,Fluent,Abaqus,CFX,Numeca等
- 計算化學:VASP,GROMACS,LAMMPS,NAMD,Gaussian,Materials Studio等
- 氣象行業:MM5,Grapes,CESM,WRF,WRF-Chem等
- 生物醫藥:Anaconda,Bioconda,bwa,FastQC等
- 科學計算:Matlab,R,Mathematica等
- 人工智慧:TensorFlow,Caffe等