SLURM(Simple Linux Utility for Resource Management)
是一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统,被世界范围内的超级计算机和计算集群广泛采用。如天河二号上便使用了 SLURM
资源管理系统。
架构
服务
- slurmctld 中央管理守护进程,SlurmctldPort=6817
- slurmd 计算节点守护程序,SlurmdPort=6818
- slurmdbd Slurm Database demons,DbdPort=6819
- 可选组件,用于在一个数据库中记录多个slurm管理集群的作业统计信息。
- slurmrestd REST API 接口,slurmrestdport=6820
- slurmstepd 工作步骤经理
- SPANK 用于节点和作业(K)控制的Slurm插件架构
文件:
- /var/log/slurmctld.log slurmctld日志文件
- /var/log/slurm_jobacct.log 默认的作业记帐日志文件
slurmdbd
组成部分:
- account 帐户
- user 用户
- cluster 群集
- partition 分区
Slurm 数据库的内容以小写字母维护。