跳到主要内容

使用

本项目面向开发测试人员,基于Vagrant,采用VirtualBox作为Provider,提供slurm+SCOW集群一键部署方案,极大简化了部署流程和部署门槛。

部署slurm+SCOW四节点集群,节点角色及默认配置如下表所示:

节点名称/角色主要服务私网IP配置
scowscow:portal、mis、auth、gateway192.168.88.1004C4G
slurmslurmdbd、slurmctld、slurmd、mariadb、nfs-server、slapd、sssd192.168.88.1012C2G
loginslurmd、sssd、nfs、Xfce、KDE、MATE、cinnamon192.168.88.1022C2G
cn01slurmd、sssd、nfs、Xfce、KDE、MATE、cinnamon192.168.88.1032C2G

1. 集群一键部署

scow-vagrant项目clone下来,在这个项目根目录下执行以下命令:

git clone https://github.com/PKUHPC/scow-vagrant.git

部署前准备:

  • 下载最新Release的scow-cli,拷贝至scow\scow-deployment目录,并命名为cli;
  • 编译生成最新的适配器可执行程序(CentOS7.9),替换adapter目录下的scow-slurm-adapter-amd64(默认为与SCOWv1.2.3匹配版本),编译参考文档
  • 修改配置文件scow\scow-deployment\install.yamlimageTag修改为与cli匹配的版本,例如v1.2.3

一键部署命令:

vagrant up

  • 第一次部署需要从vagrant clould拉取vagrant镜像,速度会比较慢,请耐心等待。

2. 集群初始化

初始化地址:http://192.168.88.100/mis/init/ 用户名/密码:demo_admin/demo_admin

进入初始化页面,选择创建初始管理员用户,将demo_admin设置为管理员用户。后续用户、账户设置请参考本项目操作手册。

image-20230126081833205

3. SCOW运维操作

#登录到集群scow节点
vagrant ssh scow

# 输入root用户密码,密码为:vagrant

# 进入scow部署目录
/root/scow/scow-deployment

# 拉取最新镜像
./cli compose pull

# 重启服务
./cli compose down
./cli compose up -d

4. 集群一键销毁命令

vagrant destroy

5. 更多文档