千叶市集群与Beowulf集群的现状及未来发展
千叶市集群的运行与使用
千叶市集群节点准备运行时,调度器会记录节点已启动,并将其添加到可分配资源池中。整个过程描述起来长,但运行速度快,唯一较慢的部分是操作系统构建,即把数据安装到本地磁盘,这可能需要10 - 15分钟,具体时间取决于镜像大小和网络活动。节点安装完成且BIOS更新后,无需管理员干预。
普通用户与千叶市集群的交互和其他分布式超级计算机集群类似,具体操作步骤如下:
1. 用户使用SSH登录前端节点。
2. 在该系统上编译代码,或复制预编译代码。
3. 若想在提交大型作业前在多个节点上测试代码,可选择集群中32个节点组成的交互式区域的节点。这些节点配置与标准计算节点相同,但不参与调度,专门用于测试。不过,两个用户的代码可能会相互冲突,因此不适合性能测试或长时间运行的代码。
4. 确认代码能成功运行后,将代码和作业数据整理到一个目录,以便复制到最终分配的节点。
5. 使用qsub命令将作业提交到PBS队列,可使用qstat检查作业状态。
6. 最终会分配一组节点,作业将在这些节点上运行。运行交互式作业时,用户可登录这些节点。
7. 若作业出现错误,会通过电子邮件通知用户。
8. 作业完成或时间用完(以先到者为准),创建的数据文件会复制回前端节点的主目录。
非标准使用千叶市集群有多种情况,如用户可申请长期专用访问集群,这需要管理员甚至管理层批准;用户可测试自定义镜像并安装到自己的节点;有人将存储节点用于I/O实验;还有人使用可视化节点,有时与计算节点上的作业结合使用,有时单独使用。
目前,千叶市集群约有一百个活跃用户,预计未来几