优势
CHESS是联科专为整合HPCC组件而开发的软件架构,为软件组件的集成、更新、配置、维护、升级和使用提供一个完整的环境。CHESS集群管理软件具有以下优势:
功能全面
B/S架构图形界面,支持中英文一键切换;通过Web GUI实现用户、组的集中管理,配置资源管理、任务调度程序参数,实时监控CPU负载、内存使用率和网络流量等任务状态;强大的文件管理功能,可输出PDF,EXCEL等报表格式;支持DCV应用集成,加速三维远程可视化;支持Docker的容器,支持Singularity容器;支持GPU卡监控、共享、独占
易使用
快速、自动部署整个集群系统;模块化安装,严控管理员、用户的功能权限;支持无盘机群
高可靠
支持高可用,避免单点故障引起的时间、经济损失;系统备份和恢复节点到默认设置;全面的错误告警和日志
可扩展
通过CHESS可直接调用SSH、VNC等功能;智能化任务调度,实现资源预留、任务回填、动态优先级和集群分区等功能;支持用户定制化开发,针对用户应用软件定制开发提交界面
主要功能
CHESS系统部署
CHESS中所集成的快速部署系统可帮助系统管理员快速、简便地完成集群节点的操作系统和软件部署。在标准环境下,完成MAC地址收集、规划好IP后,CHESS可在1小时内完成64个节点的系统安装与配置。 CHESS部署系统在软件和硬件相结合的基础上,通过集群中一台预先安装好操作系统的控制台节点,自动完成对整个集群或者单个节点的操作系统、应用软件安装及整个集群的统一网络配置和服务配置。
CHESS的系统部署可根据用户的需求灵活配置,比如以下内容:
- 操作系统的版本选择、安装内容、安装顺序
- 硬盘的磁盘分区和大小、文件系统类型
- 网络的IP地址设置、网卡绑定
- 主机名解析方式灵活,命名规则可以是符合规范的任意字母、特定符号和任意数字的组合
CUI Web Portal
CUI (ClusterTech User Interface 联科用户统一登陆平台)是CHESS的用户交互操作界面,通过浏览器(IE 10以上,Google Chrome,Firefox等)连接,将集群管理、集群监控、作业调度、作业调度管理、集群报表等各个功能模块的界面统一起来,实现联科自主研发软件的统一登陆,管理员可根据用户需求设置各模块的访问权限。
CHESS集群管理
CHESS集群管理功能包括:用户管理、节点管理、项目管理、消息管理和日志管理等功能。
- 用户管理:
管理员可以通过界面对用户进行增、删、改、查等操作。支持以组织架构形式的用户展示,同时可以自定义设置角色,针对不同的角色分配不同的权限。 - 节点管理:
CHESS节点列表界面可展示节点状态、主机名、服务状态、资源使用情况和作业分布,可在页面上对节点进行关机、重启、VNC、硬关机、硬开机、仪表盘、控制台的操作。 - 项目管理 :
可自定义项目名称,并且可以对项目分配时间和用户权限,同时提供项目维度的报表。 - 消息管理 :
主要应用于管理员向用户发送首页通知和消息管理员通知,方便管理员更加高效准确的将消息同步给用户。在“系统设置”中可进入“消息管理”导航菜单,可对消息进行新增、删除、刷新和搜索等操作。 - 日志管理 :
日志管理功能可以查看用户、系统的各种操作日志,方便管理员进行追踪。
CHESS作业调度
- 调度管理:
CHESS的资源管理和作业调度系统能合理、高效地管理系统中的所有软硬件资源和用户提交的作业,最大化的提升集群系统的吞吐率和利用率。作业调度管理功能仅适用于系统管理员。系统管理员可清晰查看到每个节点CPU的使用情况,并且通过配置资源管理器以及调度策略对集群系统进行优化管理。系统管理员通过CHESS集群管理系统还可进行队列的设置,节点设置,用户(组)优先级设置以及资源管理,使得复杂的集群资源调度管理变得简单、统一、高效。 - CPU作业提交:
为普通用户提供文件管理功能,用户可直接管理系统内文件,对文件进行新建、编辑、上传、下载、复制、剪切,粘贴,压缩、解压缩等操作。 - GPU作业提交:
GPU作业提交时,可在应用模板中设置更多的GPU相关提交参数,包括每节点GPU类型、个数,其中GPU类型分为共享和独占。 - 调度策略:
CHESS的作业调度系统支持任务间相关、自动文件传送(File Staging)、多个任务队列、多种系统分组、多种任务优先级策略和配置、多资源管理和任务高级预约、QOS (Quality of Service,包括服务对象和资源,以及功能访问控制)、可配置的节点分配策略、多种可配置的回填策略(backfill policies)、详尽的系统诊断(system diagnostic)以及各种资源使用情况的跟踪和统计。 - 应用模板:
管理员可进行添加、编辑模板操作,利用CHESS提供的基础组件,通过拖拽的方式,将用户应用常用的交互参数显示在应用模板中,方便用户提交作业。在模板列表里,可以对应用模板进行增加、删除、发布、禁用、编辑用户&部门、搜索及编辑等操作。
CHESS集群监控
CHESS集群监控提供集群整机、单机、GPU的运行状态和资源使用情况监控,管理员可随时查看集群的运行状态,及时进行故障处理。
- 集群概览 :
集群概览界面展示集群汇总的相关内容,默认显示30分钟内的集群的CPU/Memory状态、负载状态、存储状态、交换分区状态,负载情况,网络状态等。 机柜图展示:CHESS支持直观的机柜图物理视图,可根据用户现场服务器的物理摆放定制机柜图展示效果,并且可以查看每个节点的基本信息,同时可以对节点进行开机、关机、重启、VNC、Shell登陆等操作。 - 单机监控 :
通过机柜图中的节点可以进入单个节点的仪表盘,在该界面上显示了该节点的CPU/Memory、存储、交换分区、负载、网络(其中CPU/Memory、交换分区、存储、负载、网络信息与【集群汇总】中的类似)等详细信息。 - GPU监控 :
该界面展示了每个节点上所有的GPU卡信息,包括GPU所在主机名、GPU名称、使用率、温度、已使用显存、显存频率、处理器频率及PCIe读写带宽等信息。
人工智能模块
通过 CHESS平台Web 界面融合 HPC 和 AI 两大应用,统一调度不同的任务到通用 CPU 或者GPU集群上计算,突破了需要构建 GPU 异构平台给 AI 应用的局限。通过高效的分布式训练和推理,在基本不改变 HPC 用户使用习惯的情况下,解决了 AI 计算在 CPU 上的性能瓶颈,实现了统一高效的 HPC/AI 融合。
CHESS支持两种类型的AI框架,一是基于Docker的单机训练和推理,一般用于运行单机多卡的GPU服务器;另一种是基于singularity的多机训练和推理。
- 单机训练和推理:
CHESS支持基于Docker容器的单机多GPU卡的训练和推理,提供容器仓库供用户对Docker镜像进行操作,通过CHESS应用模板设置参数提交。 - 多机训练和推理:
多机训练和推理是使用CHESS调度器将基于Singularity容器的AI框架调度到多台服务器上,使用MPI的并行方式实现多机并行的训练和推理。 - 训练结果查看:
可以通过数据管理界面找到TensorFlow的运行目录,右击通过TensorBoard可视化工具打开查看TensorFlow正在进行的训练和推理结果。
CHESS集群报表
报表系统通过多种不同的筛选条件和展示维度,向用户提供了五种报表类型,它们分别是已完成作业统计报表、项目作业吞吐量报表、用户作业吞吐量报表、收费总览报表和收费详情报表。管理员可以通过各种维度的筛选后,显示报表或者下载PDF、HTML和Excel格式文件。
CHESS集群计费
CHESS集群计费功能提供基于队列的费率设置,收费总览和收费详情查看以及下载。支持预付费,超过预设置的预付费金额后,用户作业不能提交运行。
架构图
行业应用
CAE仿真
采用CHESS可为CAE提供一套完整的高性能计算环境软件包,将CAE应用软件与调度系统相结合,提供应用模板,方便作业提交和查看结果。
人工智能
CHESS在支持原有HPC应用基础上,扩充支持人工智能框架。可支持基于Docker容器的人工智能框架的调度,也可支持基于Singularity容器的分布式人工智能框架的调度。可以在TensorFlow运行时使用集成TensorBoard工具随时查看训练过程。
石油勘探
CHESS广泛应用于石油行业,可监控所有计算资源,实现集群远程管理,同时可提供CGG和Omega等软件的运行情况和使用报表。
生命科学
CHESS可为生命科学高性能计算用户配备完备的并行软件开发和运行环境,配置CHESS Monitor和CHESS Schedule模块进行集群监控以及作业调度,包含针对不同应用软件的模板设置,提高用户的使用效率、降低高性能计算机的使用门槛。
基础学科
CHESS针对高校以及科研院所的使用特点提供一套完整的软件解决方案,支持多种复杂并行环境与应用程序,多种作业调度策略,为用户提供软件支撑平台。高校与科研院所有用户多、管理复杂、数据统计、以及用户水平参差不齐等问题,CHESS完善的集群管理、丰富的数据报表统计,以及B/S架构采用Web Portal的使用方式可帮助用户解决此类问题,让用户更多的精力专注于自己的科研成果,帮助用户搭建一套高效、稳定的集群系统。
气象行业
气象、海洋模式对计算以及I/O要求较高,联科在气象行业有丰富的行业经验,CHESS解决用户常规管理、集群监控,为用户配备完备的并行计算开发和运行环境,针对不同模式可采用不同的应用模板进行提交作业;针对气象过程模拟涉及海量小文件的处理,为气象行业提供内存文件系统高带宽、高IOPS的解决方案,为用户解决I/O瓶颈;提供常用数值模式的安装、调试和培训服务,并配合用户完成数值预报业务系统的安装调试。