高性能计算 (
HPC, High-Performance Computing) 是指高速处理数据并执行复杂计算的能力。一个 HPC 集群由数百或数千个通过网络连接的计算服务器组成。每个服务器都称为一个节点。每个集群中的节点彼此并行工作,提高处理速度,从而实现高性能计算。HPC 解决方案包括三个主要组件:计算、网络、存储、编排
使用场景
- 研究实验室
- AI(Artificial intelligence)人工智能
- 机器学习工作负载
- 癌症筛查
- IoT(Internet of things)物联网
- CAE,计算机辅助工程
- EDA(Electronics Design Automation)电子设计自动化
- 生信(生物信息学)
相关
HPC 节点分类:
- 管控节点
- 计算节点
- 登录节点
集群分类:
- 主/主 (Active/active)
- 主/从(Active/passive)
- 混合型(Hybrid)
知识图谱:
- 资源调配系统
Warewulf是一个计算机群集实施工具包,可简化群集安装和长期管理的过程。xCAT是由 IBM 开发的开源分布式计算管理软件,用于基于 Linux 或 AIX 的集群的部署和管理。
- 资源管理器 SMS(system management server)
- Slurm
- openPBS
PBS(Portable Batch System)Platform Load Sharing Facility (or simply LSF)is a workload management platform, job scheduler, for distributed high performance computing.
Parallel Storage一种并行文件系统PMI(Process Management Interface)实现:https://github.com/openpmix/openpmixMPI(Message Passing Interface、消息传递接口)一个平行计算的应用程序接口(API),常在超级电脑、电脑丛集等非共享内存环境程序设计。- OpenMPI
- MPICH
- MVAPICH2
- Intel MPI
ABI (Application binary interface)应用程序二进制接口- 三种 DIMM 内存可用:UDIMM 内存、RDIMM 内存和 LRDIMM 内存
- UDIMM,即无缓冲双列直插式内存模组 (Unbuffered Dual In-Line Memory Modules or unregistered Dual In-Line Memory Modules,UDIMM)
- IC(Integrated circuit) 集成电路
POSIX (Portable Operating System Interface)可移植操作系统接口,IEEE 为要在各种 UNIX 操作系统上运行软件,而定义 API 的一系列互相关联的标准的总称,其正式称呼为 IEEE Std 1003,而国际标准名称为 ISO/IEC 9945。- 图形界面
- X 窗口系统 (X Window System) x11
- VS Code in the browser https://github.com/cdr/code-server
- 网络
- intel OPA
- MLNX
- DCG:Nvidia Datacenter GPU
- DCGM:Nvidia Datacenter GPU Manager
- DCGM 是一组用于在基于 Linux 的大规模集群环境中管理和监视 NVIDIA GPUs 的工具。它是一个低开销的工具,可以执行各种功能,包括主动健康监视、诊断、系统验证、策略、电源和时钟管理、组配置和记帐。
Basic Services
- Licensing – FlexNet/FlexLM or equivalent, mediates access to a pool of shared licenses.
- Database – Administrative use for logging/monitoring, dynamic configuration. Requirements of user software.
- Boot/Provisioning – For example PXE/Cobbler, PXE/Image or part of a cluster management suite
Cluster Networking
-
Hardware Management – Lights out management
-
External – Public interfaces to the cluster
-
Internal – General node to node communication
-
Storage – Access to network file systems
-
Interconnect – high-speed, low-latency for multinode jobs
-
流程管理软件
- snakemake(生信流程搭建工具):https://snakemake.readthedocs.io/en/stable/
第三方使用手册
- 上海交大超算平台用户文档 https://docs.hpc.sjtu.edu.cn/index.html / https://github.com/SJTU-HPC
- 北京大学超算中心 http://hpc.pku.edu.cn/_book/
- 四川农业大学先进计算平台 https://hpc.sicau.edu.cn/syzn/slurm.htm
- 中国科学院高能所计算平台 http://afsapply.ihep.ac.cn/cchelp/zh/
- 中国科大超算中心用户使用手册 http://scc.ustc.edu.cn/
其他 HPC 网址
- 性能相关网址
- 磁盘测试 https://www.iozone.org/
- 863 高性能计算机评测中心 http://hpctest.cs.tsinghua.edu.cn/programs.html
- https://hpc.usst.edu.cn/_upload/article/files/b5/3d/0a106a654817a8e32347deeea44f/57c6bde1-ffe4-4eb3-87fc-badcf4e2b8a2.pdf
- http://www.redbooks.ibm.com/redpapers/pdfs/redp5478.pdf
- https://download.lenovo.com/servers_pdf/LiCO_6.0.0_Administrator_Guide.pdf