優勢
CHESS是聯科集團專為整合HPCC元件而開發的軟體架構,為軟體元件的集成、更新、配置、維護、升級和使用提供一個完整的環境。CHESS集群管理軟體具有以下優勢:
功能全面
B/S架構圖形介面,支援中英文一鍵切換;通過Web GUI實現使用者、組的集中管理,配置資源管理、任務調度程式參數,即時監控CPU負載、記憶體使用率和網路流量等任務狀態;強大的文檔管理功能,可輸出PDF,EXCEL等報表格式;支援DCV應用集成,加速三維遠端視覺化;支持Docker的容器,支持Singularity容器;支援GPU卡監控、共用、獨佔
易使用
快速、自動部署整個集群系統;模組化安裝,嚴控管理員、用戶的功能許可權; 支持無盤機群
高可靠
支援高可用,避免單點故障引起的時間、經濟損失;系統備份和恢復節點到默認設置;全面的錯誤告警和日誌
可擴展
通過CHESS可直接調用SSH、VNC等功能;智慧化任務調度,實現資源預留、任務回填、動態優先順序和集群分區等功能;支援使用者定制化開發,針對使用者應用軟體定制開發提交介面
主要功能
CHESS系统部署
CHESS中所集成的快速部署系統可説明系統管理員快速、簡便地完成集群節點的作業系統和軟體部署。在標準環境下,完成MAC地址收集、規劃好IP後,CHESS可在1小時內完成64個節點的系統安裝與配置。 CHESS部署系統在軟體和硬體相結合的基礎上,通過集群中一台預先安裝好作業系統的控制台節點,自動完成對整個集群或者單個節點的作業系統、應用軟體安裝及整個集群的統一網路配置和服務配置。
CHESS的系統部署可根據使用者的需求靈活配置,比如以下內容:
- 作業系統的版本選擇、安裝內容、安裝順序
- 硬碟的磁碟分割和大小、檔案系統類型
- 網路的IP位址設置、網卡綁定
- 主機名稱解析方式靈活,命名規則可以是符合規範的任意字母、特定符號和任意數位的組合
CUI Web Portal
CUI (ClusterTech User Interface聯科用戶統一登錄平台)是CHESS的使用者交交互操作介面,通過瀏覽器(IE 10以上,Google Chrome,Firefox等)連接,將集群管理、集群監控、作業調度、作業調度管理、集群報表等各個功能模組的介面統一起來,實現聯科自主研發軟體的統一登錄,管理員可根據使用者需求設置各模組的存取權限。
CHESS集群管理
CHESS集群管理功能包括:使用者管理、節點管理、專案管理、消息管理和日誌管理等功能。
- 用户管理:
管理員可以通過介面對使用者進行增、刪、改、查等操作。支援以組織架構形式的使用者展示,同時可以自訂設置角色,針對不同的角色分配不同的許可權。 - 節點管理:
CHESS節點清單介面可展示節點狀態、主機名稱、服務狀態、資源使用情況和作業分佈,可在頁面上對節點進行關機、重啟、VNC、硬關機、硬開機、儀錶盤、控制台的操作。 - 專案管理 :
可自訂項目名稱,並且可以對項目分配時間和用戶許可權,同時提供專案維度的報表。 - 消息管理 :
主要應用于管理員向使用者發送首頁通知和消息管理員通知,方便管理員更加高效準確的將消息同步給使用者。在“系統設置”中可進入“消息管理”導航功能表,可對消息進行新增、刪除、刷新和搜索等操作。 - 日誌管理 :
日誌管理功能可以查看使用者、系統的各種操作日誌,方便管理員進行追蹤。
CHESS作業調度
- 調度管理:
CHESS的資源管理和作業調度系統能合理、高效地管理系統中的所有軟硬體資源和用戶提交的作業,最大化的提升集群系統的吞吐率和利用率。作業調度管理功能僅適用于系統管理員。系統管理員可清晰查看到每個節點CPU的使用情況,並且通過配置資源管理器以及調度策略對集群系統進行優化管理。系統管理員通過CHESS集群管理系統還可進行隊列的設置,節點設置,用戶(組)優先順序設置以及資源管理,使得複雜的集群資源調度管理變得簡單、統一、高效。 - CPU作業提交:
為普通用戶提供檔管理功能,使用者可直接管理系統內檔,對檔進行新建、編輯、上傳、下載、複製、剪切、粘貼、壓縮、解壓縮等操作。 GPU作業提交:GPU作業提交時,可在應用範本中設置更多的GPU相關提交參數,包括每節點GPU類型、個數,其中GPU類型分為共用和獨佔。 - 調度策略:
CHESS的作業調度系統支援任務間相關、自動檔傳送(File Staging)、多個任務隊列、多種系統分組、多種任務優先順序策略和配置、多資源管理和任務高級預約、QOS (Quality of Service,包括服務物件和資源,以及功能存取控制)、可配置的節點分配策略、多種可配置的回填策略(backfill policies)、詳盡的系統診斷(system diagnostic)以及各種資源使用情況的跟蹤和統計。 - 應用範本:
管理員可進行添加、編輯範本操作,利用CHESS提供的基礎元件,通過拖拽的方式,將使用者應用常用的交互參數顯示在應用範本中,方便使用者提交作業。在範本清單裡,可以對應用範本進行增加、刪除、發佈、禁用、編輯用戶和部門、搜索及編輯等操作。
CHESS集群監控
- 集群概覽 :
集群概覽介面展示集群匯總的相關內容,預設顯示30分鐘內的集群的CPU/Memory狀態、負載狀態、存儲狀態、交換分區狀態,負載情況,網路狀態等。 機櫃圖展示:CHESS支援直觀的機櫃圖物理視圖,可根據使用者現場伺服器的物理擺放定制機櫃圖展示效果,並且可以查看每個節點的基本資訊,同時可以對節點進行開機、關機、重啟、VNC、Shell登錄等操作。 - 單機監控: :
通過機櫃圖中的節點可以進入單個節點的儀錶盤,在該介面上顯示了該節點的CPU/Memory、存儲、交換分區、負載、網路(其中CPU/Memory、交換分區、存儲、負載、網路資訊與【集群匯總】中的類似)等詳細資訊。 - GPU監控 :
該介面展示了每個節點上所有的GPU卡資訊,包括GPU所在主機名稱、GPU名稱、使用率、溫度、已使用顯存、顯存頻率、處理器頻率及PCIe讀寫頻寬等資訊。
人工智能模組
通過 CHESS平台Web 介面融合 HPC 和 AI 兩大應用,統一調度不同的任務到通用 CPU 或者GPU集群上計算,突破了需要構建 GPU 異構平台給 AI 應用的局限。通過高效的分散式訓練和推理,在基本不改變 HPC 使用者使用習慣的情況下,解決了 AI 計算在 CPU 上的性能瓶頸,實現了統一高效的 HPC/AI 融合。 CHESS支援兩種類型的AI框架,一是基於Docker的單機訓練和推理,一般用於運行單機多卡的GPU伺服器;另一種是基於singularity的多機訓練和推理。
- 單機訓練和推理:
CHESS支援基於Docker容器的單機多GPU卡的訓練和推理,提供容器倉庫供用戶對Docker鏡像進行操作,通過CHESS應用範本設置參數提交。 - 多機訓練和推理:
多機訓練和推理是使用CHESS調度器將基於Singularity容器的AI框架調度到多台伺服器上,使用MPI的並行方式實現多機並行的訓練和推理。 - 訓練結果查看:
可以通過資料管理介面找到TensorFlow的運行目錄,右擊通過TensorBoard視覺化工具打開查看TensorFlow正在進行的訓練和推理結果。
CHESS集群報表
報表系統通過多種不同的篩選條件和展示維度,向使用者提供了五種報表類型,它們分別是已完成作業統計報表、專案作業輸送量報表、使用者作業輸送量報表、收費總覽報表和收費詳情報表。管理員可以通過各種維度的篩選後,顯示報表或者下載PDF、HTML和Excel格式檔。
CHESS集群計費
CHESS集群計費功能提供基於隊列的費率設置,收費總覽和收費詳情查看以及下載。支援預付費,超過預設置的預付費金額後,用戶作業不能提交運行。
架構圖
行業應用
CAE模擬
採用CHESS可為CAE提供一套完整的高性能計算環境套裝軟體,將CAE應用軟體與調度系統相結合,提供應用範本,方便作業提交和查看結果。
人工智能
CHESS在支持原有HPC應用基礎上,擴充支持人工智慧框架。可支援基於Docker容器的人工智慧框架的調度,也可支援基於Singularity容器的分散式人工智慧框架的調度。可以在TensorFlow運行時使用集成TensorBoard工具隨時查看訓練過程。
石油勘探
CHESS廣泛應用於石油行業,可監控所有計算資源,實現集群遠端系統管理,同時可提供CGG和Omega等軟體的運行情況和使用報表。
生命科學
CHESS可為生命科學高性能計算用戶配備完備的並行軟體發展和運行環境,配置CHESS Monitor和CHESS Schedule模組進行集群監控以及作業調度,包含針對不同應用軟體的範本設置,提高使用者的使用效率、降低高性能電腦的使用門檻。
基礎學科
CHESS針對高校以及科研院所的使用特點提供一套完整的軟體解決方案,支援多種複雜並行環境與應用程式,多種作業調度策略,為使用者提供軟體支撐平台。高校與科研院所有用戶多、管理複雜、資料統計、以及使用者水準參差不齊等問題,CHESS完善的集群管理、豐富的資料包表統計,以及B/S架構採用Web Portal的使用方式可説明使用者解決此類問題,讓用戶更多的精力專注於自己的科研成果,幫助用戶搭建一套高效、穩定的集群系統。
氣象行業
氣象、海洋模式對計算以及I/O要求較高,聯科在氣象行業有豐富的行業經驗,CHESS解決用戶常規管理、集群監控,為用戶配備完備的平行計算開發和運行環境,針對不同模式可採用不同的應用範本進行提交作業;針對氣象過程模擬涉及海量小檔的處理,為氣象行業提供記憶體檔案系統高頻寬、高IOPS的解決方案,為使用者解決I/O瓶頸;提供常用數值模式的安裝、調試和培訓服務,並配合使用者完成數值預報業務系統的安裝調試。