高性能计算 (HPC, High-Performance Computing
) 是指高速处理数据并执行复杂计算的能力。一个 HPC 集群由数百或数千个通过网络连接的计算服务器组成。每个服务器都称为一个节点。每个集群中的节点彼此并行工作,提高处理速度,从而实现高性能计算。HPC 解决方案包括三个主要组件:计算、网络、存储、编排
- 研究实验室
- AI(Artificial intelligence)人工智能
- 机器学习工作负载
- 癌症筛查
- IoT(Internet of things)物联网
- CAE,计算机辅助工程
- EDA(Electronics Design Automation)电子设计自动化
- 生信(生物信息学)
HPC 节点分类:
- 主/主 (Active/active)
- 主/从(Active/passive)
- 混合型(Hybrid)
- 资源调配系统
是由 IBM 开发的开源分布式计算管理软件,用于基于 Linux 或 AIX 的集群的部署和管理。
- 资源管理器 SMS(system management server)
- Slurm
- openPBS
PBS(Portable Batch System)
Platform Load Sharing Facility (or simply LSF)
is a workload management platform, job scheduler, for distributed high performance computing.
Parallel Storage
一种并行文件系统PMI(Process Management Interface)
实现:https://github.com/openpmix/openpmixMPI(Message Passing Interface、消息传递接口)
一个平行计算的应用程序接口(API),常在超级电脑、电脑丛集等非共享内存环境程序设计。- OpenMPI
- Intel MPI
ABI (Application binary interface)
应用程序二进制接口- 三种 DIMM 内存可用:UDIMM 内存、RDIMM 内存和 LRDIMM 内存
- UDIMM,即无缓冲双列直插式内存模组 (Unbuffered Dual In-Line Memory Modules or unregistered Dual In-Line Memory Modules,UDIMM)
- IC(Integrated circuit) 集成电路
POSIX (Portable Operating System Interface)
可移植操作系统接口,IEEE 为要在各种 UNIX 操作系统上运行软件,而定义 API 的一系列互相关联的标准的总称,其正式称呼为 IEEE Std 1003,而国际标准名称为 ISO/IEC 9945。- 图形界面
- 网络
- DCG:Nvidia Datacenter GPU
- DCGM:Nvidia Datacenter GPU Manager
- DCGM 是一组用于在基于 Linux 的大规模集群环境中管理和监视 NVIDIA GPUs 的工具。它是一个低开销的工具,可以执行各种功能,包括主动健康监视、诊断、系统验证、策略、电源和时钟管理、组配置和记帐。
Basic Services
- Licensing – FlexNet/FlexLM or equivalent, mediates access to a pool of shared licenses.
- Database – Administrative use for logging/monitoring, dynamic configuration. Requirements of user software.
- Boot/Provisioning – For example PXE/Cobbler, PXE/Image or part of a cluster management suite
Cluster Networking
Hardware Management – Lights out management
External – Public interfaces to the cluster
Internal – General node to node communication
Storage – Access to network file systems
Interconnect – high-speed, low-latency for multinode jobs
- snakemake(生信流程搭建工具):https://snakemake.readthedocs.io/en/stable/
其他 HPC 网址