HPC 超算介绍

发布时间: 更新时间: 总字数:1507 阅读时间:4m 作者: IP上海 分享 网址

高性能计算 (HPC, High-Performance Computing) 是指高速处理数据并执行复杂计算的能力。一个 HPC 集群由数百或数千个通过网络连接的计算服务器组成。每个服务器都称为一个节点。每个集群中的节点彼此并行工作,提高处理速度,从而实现高性能计算。HPC 解决方案包括三个主要组件:计算、网络、存储、编排

使用场景

  • 研究实验室
  • AI(Artificial intelligence)人工智能
  • 机器学习工作负载
  • 癌症筛查
  • IoT(Internet of things)物联网
  • CAE,计算机辅助工程
  • EDA(Electronics Design Automation)电子设计自动化
  • 生信(生物信息学)

相关

HPC 节点分类:

  • 管控节点
  • 计算节点
  • 登录节点

集群分类:

  • 主/主 (Active/active)
  • 主/从(Active/passive)
  • 混合型(Hybrid)

知识图谱:

  • 资源调配系统
    • Warewulf 是一个计算机群集实施工具包,可简化群集安装和长期管理的过程。
    • xCAT 是由IBM开发的开源分布式计算管理软件,用于基于Linux或AIX的集群的部署和管理。
  • 资源管理器 SMS(system management server)
    • Slurm
    • openPBS
    • PBS(Portable Batch System)
    • Platform Load Sharing Facility (or simply LSF) is a workload management platform, job scheduler, for distributed high performance computing.
  • Parallel Storage 一种并行文件系统
  • PMI(Process Management Interface) 实现:https://github.com/openpmix/openpmix
  • MPI(Message Passing Interface、消息传递接口) 一个平行计算的应用程序接口(API),常在超级电脑、电脑丛集等非共享内存环境程序设计。
    • OpenMPI
    • MPICH
    • MVAPICH2
    • Intel MPI
  • ABI (Application binary interface) 应用程序二进制接口
  • RDMAInfiniBandIB卡IB驱动关系
    • RDMA(RemoteDirect Memory Access,远程直接内存访问) 是一种为了解决网络传输中服务器端数据处理的延迟而产生的技术。它将数据直接从一台计算机的内存传输到另一台计算机,无需双方操作系统的介入。区别与传统的数据传输,由一台机器的用户空间发送到另一台远程机器的用户空间
    • InfiniBand(无限带宽,IB)协议,是一个用于高性能计算(HPC)的计算机网络通信标准(协议),它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。类似的协议还有 iWARPRoCE
    • iWARPRoCE 是非 InfiniBand 硬件上实现 RDMA 技术
    • IB 卡,是实现 InfiniBand 协议的硬件
    • IB 驱动,IB 卡依赖 IB 驱动才能实现 InfiniBand 协议的 RDMA 技术
    • IB 测试工具:ib_write_bw / ib_read_bw
  • OpenSM 软件是符合 InfiniBand子网管理器(SM),运行在 Mellanox OFED 软件堆栈进行 IB 网络管理,管理控制流走业务通道,属于带内管理方式
  • 三种DIMM内存可用:UDIMM内存、RDIMM内存和LRDIMM内存
    • UDIMM,即无缓冲双列直插式内存模组 (Unbuffered Dual In-Line Memory Modules or unregistered Dual In-Line Memory Modules,UDIMM)
  • IC(Integrated circuit) 集成电路
  • POSIX (Portable Operating System Interface) 可移植操作系统接口,IEEE为要在各种UNIX操作系统上运行软件,而定义API的一系列互相关联的标准的总称,其正式称呼为IEEE Std 1003,而国际标准名称为ISO/IEC 9945。
  • 图形界面
  • 网络
    • intel OPA
    • MLNX
  • DCG:Nvidia Datacenter GPU
  • DCGM:Nvidia Datacenter GPU Manager
    • DCGM 是一组用于在基于 Linux 的大规模集群环境中管理和监视 NVIDIA GPUs 的工具。它是一个低开销的工具,可以执行各种功能,包括主动健康监视、诊断、系统验证、策略、电源和时钟管理、组配置和记帐。

Basic Services

  • Licensing – FlexNet/FlexLM or equivalent, mediates access to a pool of shared licenses.
  • Database – Administrative use for logging/monitoring, dynamic configuration. Requirements of user software.
  • Boot/Provisioning – For example PXE/Cobbler, PXE/Image or part of a cluster management suite

Cluster Networking

  • Hardware Management – Lights out management

  • External – Public interfaces to the cluster

  • Internal – General node to node communication

  • Storage – Access to network file systems

  • Interconnect – high-speed, low-latency for multinode jobs

  • 流程管理软件

    • snakemake(生信流程搭建工具):https://snakemake.readthedocs.io/en/stable/

第三方使用手册

其他 HPC 网址

Home Archives Categories Tags Statistics
本文总阅读量 次 本站总访问量 次 本站总访客数