优势
支持混合云
本地集群与公有云直接联动,快速实现混合云模式;公有云计算资源可根据用户需求弹性伸缩;随取随用,无需排队。
私有集群管理
快速部署,集中管理,统一调度。
一站式管家服务
为用户优化、定制应用软件和集群管理软件;输入IP地址、用户名、密码,一键链接用户定制集群;在线使用数据文件、应用软件、计算资源、存储资源、在线监控等功能;7*24小时在线服务。
多种架构支持
支持X86和ARM64架构服务器。
支持多种AI开源框架
支持TensorFlow,Caffe等框架。
GPU监控与调度
支持GPU单卡&多卡的共享、独占。
主要功能
CHESS采用模块化设计,可根据用户需求自由选择模块组合,包括部署模块、集群管理模块、监控模块、作业调度模块、混合云模块、报表统计与计费模块、Web门户模块。
部署模块
帮助系统管理员高效、便捷部署集群节点操作系统、软件应用。
- 批量安装、快速部署;
- 提供节点弹性扩展、动态伸缩;
- 支持系统备份与恢复功能;
- 针对不同节点分发相应系统镜像、定制软件包;
- 操作系统、管理软件、应用环境统一部署。
集群管理模块
提供节点管理、并行命令、远程开关机等功能,通过Web实现NFS共享目录管理,操作日志以及开关机记录。
- 节点角色管理
勾选角色栏字母(M/I/E/T),一键完成节点角色切换。 - 查看节点状态,完成节点操作
可查看节点信息,包括是否在线,是否允许提交作业,单机或批量节点操作(删除、开机、关机、重启、新增镜像、恢复节点、SSH、VNC等)。 - 共享目录管理
通过WEB页面创建共享目录、编辑挂载点,避免复杂NFS共享文件系统配置。 - 操作系统镜像
支持节点系统镜像管理,一键恢复操作系统。 - 集群操作日志查询
查看对集群的镜像/机器操作的内容、时间、结果、用户等信息。
监控模块
系统管理员可实时监控物理机柜视图,直观查看系统集群、节点运行和资源使用情况;支持页面、邮件报警,支持报警阈值设置。
- 直观的集群
监控真实物理机柜视图展示节点排放位置,显示节点状态信息指示灯,包括负载、是否在线、CPU温度等信息。 - 集群/节点性能状态监控
实时监控某一时间内集群/节点CPU、内存、交换分区、网络、磁盘、负载等性能指标,及时掌握集群状态。 - 文件系统使用情况
可查看集群共享目录列表、每个共享目录下的挂载点列表和运行详情。 - 故障报警通知
节点故障或CPU、内存等指标负载过高时,发送页面报警或邮件报警通知,支持历史报警信息查询。 - 报警阈值设置
配置不同报警阈值,灵活应对变化。 - 性能分析
设置待查看节点性能参数,按日期进行实时视图展示。 - GPU卡性能监控
可监控每块GPU卡的性能指标。
作业调度模块
通优化集群系统软硬件资源,减少作业响应时间,支持多种作业提交模板,简化集群资源管理,清晰查看节点CPU使用情况,合理配置资源管理器,Web端在线编辑、删除、压缩脚本。
- 作业管理列表
统一查看、删除、终止作业提交状态、队列以及所有者信息。●配置计算节点列表可查看集群节点核数、节点CPU核数使用情况,控制节点资源,修改节点属性。 - 配置调度策略
提供资源提前预留、Backfill算法、动态优先级、公平共享、配额管理、系统诊断、系统监测和统计等功能,支持QoS和基于策略的调度,支持抢占策略;重要作业可优先使用集群资源 - 配置用户组策略
在功能模块主体内容下显示配置用户组策略相关内容,添加联云中用户组的策略,包括最大作业数、最大处理器数、最大内存、最大硬盘、最大walltime、优先级等。 - 实现资源预留
为用户预留计算节点资源使用时间,保证作业在特定的时间内有可用的计算资源。 - 灵活作业提交方式
支持多种作业提交方式:命令行、Web界面、应用软件集成界面、作业脚本和可执行文件等多种提交方式。常用应用程序可设置为模板。 - 完善的文件管理
新建、编辑、上传、下载、复制、剪切、粘贴、压缩、解压Linux系统文件,操作简便。 - 应用模板
提交作业时可选择对应种类模板,并可创建新应用模板。
混合云模块
混合云管理,满足集群数据计算需求,按需扩展,灵活部署,实现与公有云计算的集成。
- 混合云节点管理
通过Web界面查看、管理节点基本信息,包括节点主机名、MAC地址、IP地址、角色、规格、状态、和创建时间等。 - 云节点申请
按需选择、申请公有云节点类型、配置,按照包年/包月、按需计费等方式进行价格核算;申请完成后可在混合云节点查看相关信息。 - 云节点操作
节点的管理操作包含:开机、关机、强制关机、重启、强制重启和释放。 - 云存储管理
云存储空间用于作业运行时读写共享数据;可在公有云上直接创建NAS存储,挂载至公有云节点,并可按需随时删减。
报表统计与计费
报表系统为用户提供详细、丰富的数据资源统计功能,包括报表总览、单个报表详情等,可导出PDF、HTML、Excel格式。
- 集群计算资源使用统计
可生成集群系统CPU、内存、交换分区、存储使用率数据报表,和已完成作业、运行中作业、等待处理作业数据报表。 - 统计资源消费、灵活设置费率
结合用户(组)的CPU使用时间、运行时间,灵活设置收费费率,生成账单,提供打印、查询功能。
Web Portal
通过Web Portal将集群管理、集群监控、作业调度管理、集群报表、混合云等各个功能模块的界面统一起来,实现了联科自主研发软件的统一登录,提供用户管理和权限管理功能,管理员可给用户设置各个模块的访问权限。 实现集群管理、集群监控、作业调度管理、集群报表、混合云等各功能模块Web端界面统一登录,按需分配用户管理权限
- 权限设定
集群管理、作业调度、集群监控、报表统计模块分为管理员、用户两种权限,管理员可由Web端界面按需设置用户访问权限,分配用户可用的功能模块。 - 服务管理
提供服务监控功能,查看服务运行状态、时间、CPU利用率、内存占用率,按需启动、终止、监控、禁止监控服务项目。 - 用户及群组
Web端界面设置用户目录,提供新建、编辑、删除用户(组)功能,查看用户隶属组别,修改组别密码等。
行业应用
CHESS HPC混合云平台可广泛应用于航天、汽车、电子、教育、科研、石油、气象、生命科学、制造业、人工智能等计算能力高需求领域。
- 制造行业:Ansys,Fluent,Abaqus,CFX,Numeca等
- 计算化学:VASP,GROMACS,LAMMPS,NAMD,Gaussian,Materials Studio等
- 气象行业:MM5,Grapes,CESM,WRF,WRF-Chem等
- 生物医药:Anaconda,Bioconda,bwa,FastQC等
- 科学计算:Matlab,R,Mathematica等
- 人工智能:TensorFlow,Caffe等