高性能计算 (HPC, High-Performance Computing
) 是指高速处理数据并执行复杂计算的能力。一个 HPC 集群由数百或数千个通过网络连接的计算服务器组成。每个服务器都称为一个节点。每个集群中的节点彼此并行工作,提高处理速度,从而实现高性能计算。HPC 解决方案包括三个主要组件:计算、网络、存储、编排
使用场景
- 研究实验室
- AI(Artificial intelligence)人工智能
- 机器学习工作负载
- 癌症筛查
- IoT(Internet of things)物联网
- CAE,计算机辅助工程
- EDA(Electronics Design Automation)电子设计自动化
- 生信(生物信息学)
相关
HPC 节点分类:
集群分类:
- 主/主 (Active/active)
- 主/从(Active/passive)
- 混合型(Hybrid)
知识图谱:
- 资源调配系统
Warewulf
是一个计算机群集实施工具包,可简化群集安装和长期管理的过程。
xCAT
是由 IBM 开发的开源分布式计算管理软件,用于基于 Linux 或 AIX 的集群的部署和管理。
- 资源管理器 SMS(system management server)
- Slurm
- openPBS
PBS(Portable Batch System)
Platform Load Sharing Facility (or simply LSF)
is a workload management platform, job scheduler, for distributed high performance computing.
Parallel Storage
一种并行文件系统
PMI(Process Management Interface)
实现:https://github.com/openpmix/openpmix
MPI(Message Passing Interface、消息传递接口)
一个平行计算的应用程序接口(API),常在超级电脑、电脑丛集等非共享内存环境程序设计。
- OpenMPI
- MPICH
- MVAPICH2
- Intel MPI
ABI (Application binary interface)
应用程序二进制接口
- 三种 DIMM 内存可用:UDIMM 内存、RDIMM 内存和 LRDIMM 内存
- UDIMM,即无缓冲双列直插式内存模组 (Unbuffered Dual In-Line Memory Modules or unregistered Dual In-Line Memory Modules,UDIMM)
- IC(Integrated circuit) 集成电路
POSIX (Portable Operating System Interface)
可移植操作系统接口,IEEE 为要在各种 UNIX 操作系统上运行软件,而定义 API 的一系列互相关联的标准的总称,其正式称呼为 IEEE Std 1003,而国际标准名称为 ISO/IEC 9945。
- 图形界面
- 网络
- DCG:Nvidia Datacenter GPU
- DCGM:Nvidia Datacenter GPU Manager
- DCGM 是一组用于在基于 Linux 的大规模集群环境中管理和监视 NVIDIA GPUs 的工具。它是一个低开销的工具,可以执行各种功能,包括主动健康监视、诊断、系统验证、策略、电源和时钟管理、组配置和记帐。
Basic Services
- Licensing – FlexNet/FlexLM or equivalent, mediates access to a pool of shared licenses.
- Database – Administrative use for logging/monitoring, dynamic configuration. Requirements of user software.
- Boot/Provisioning – For example PXE/Cobbler, PXE/Image or part of a cluster management suite
Cluster Networking
-
Hardware Management – Lights out management
-
External – Public interfaces to the cluster
-
Internal – General node to node communication
-
Storage – Access to network file systems
-
Interconnect – high-speed, low-latency for multinode jobs
-
流程管理软件
- snakemake(生信流程搭建工具):https://snakemake.readthedocs.io/en/stable/
第三方使用手册
其他 HPC 网址