0% encontró este documento útil (0 votos)
85 vistas26 páginas

2019-03-29-Computacion de Altas Prestaciones - File Systems

Este documento resume un taller sobre diseño y montaje de infraestructuras de datos center de alta performance computing (HPC). El taller fue impartido por el profesor Alexis Rojas en el Politécnico Grancolombiano en abril de 2019. Se describen los componentes de hardware y software de un sistema HPC local, incluyendo nodos de computo, red de interconexión y nodos de E/I. También se presentan modelos de arquitectura de pruebas en Colombia y la UAB, así como configuraciones de equipos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
85 vistas26 páginas

2019-03-29-Computacion de Altas Prestaciones - File Systems

Este documento resume un taller sobre diseño y montaje de infraestructuras de datos center de alta performance computing (HPC). El taller fue impartido por el profesor Alexis Rojas en el Politécnico Grancolombiano en abril de 2019. Se describen los componentes de hardware y software de un sistema HPC local, incluyendo nodos de computo, red de interconexión y nodos de E/I. También se presentan modelos de arquitectura de pruebas en Colombia y la UAB, así como configuraciones de equipos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 26

POLITECNICO

GRANCOLOMBIANO

DISEÑO Y MONTAJE DE INFRAESTRUCTURAS


DATACENTER HPC

Profesor:
Alexis Rojas Cordero
.

Línea de Investigación
Diseño y Optimización de Sistemas de HPC para cargas de trabajo específicas

Abril 2019
1
El Sistema de E/S en HPC: HW+SW

Compute
Nodes
HPC Application
Inter- I/O Libraries
connection Parallel: NetCDF,
Network Serial:
HDF5, PnetCDF, etc.. NetCDF, HDF5,
CGNS, etc..
E/S I/O
MPI-IO
Nodes
P POSIX
A
Storage T Parallel File System (Client)
Networ H
k I/O Forwarding

Storage Network
Storage Parallel File System (Server)
Nodes
Storage Devices
Storage
Devices
I/O Software Stack

2
¿Qué es un Sistema de HPC Local ?

3
Modelo de la arquitectura de pruebas en Colombia

Programas paralelos usando E/S única a través de un servidor


máster

4
5
ORGANIZACIÓN DE ARREGLOS SAN

6
Arquitectura de Lustre utilizada

7
Diagrama del clúster utilizado en el
POLITÉCNICO GRANCOLOMBIANO

8
Nuevo modelo concebido para Colombia
RAID-1 RAID-1

OST0 OST1

RAID-1 MASTER (Metadata Server)


con Lustre server

MDS
MDT OSS1
OSS0 Object Storage Server
Object Storage Server

Red de
administración

Red de datos
10/100 BaseT

NODO1 NODO2 NODO3 NODO4 NODO5 NODO6

Todos los nodos con Lustre Cliente

9
Modelo de la arquitectura de pruebas en laUAB
Cada proceso lee o escribe en un archivo separado. Es decir
usando los recursos de cada una de las máquians pero
subordinados al máster.

Esta estrategia puede generar un gran número de archivos


pequeños.

10
Configuración de equipos de pruebas UAB

11
Arquitectura de 13 Nodos de pruebas en la UAB
Usuario1

Usuario2
Partición 1 del
disco de cada
aoclsb-mgnt
arojas servidor
. aoclsb.uab.es
.
.
Usuario n
1 Gbit

Máster nodeserever io

Usuario-n, …, usuario-2, usuario-1 Cola de trabajos

Sistema de
almacenamiento
Planificador de tareas
compartido
OrangeFS

Partición 2 del
disco de cada
servidor . Nodes-io del 1 al 9

.
Partición 1 del
disco de cada
.
servidor
Nodessd del 10 al 13

12
TABLA DE CARACTERISTICAS DE LOS EQUIPOS
PARA EL ARMADO DE LAS CADENAS DE
EJECUCIION DE PRUEBAS YA

13
CONFIGURACION RECURSOS MODELO BOGOTA
RAID-1 RAID-0
RAID-0 RAID-0

OST0 OST1 OST3


OST2

MDT

Object Storage Server


MASTER (Metadata Server) OSS1
con Lustre server OSS0 OSS3
OSS2 Object Storage Server
MDS Object Storage Server

Red de
administración

Red de datos
10/100 BaseT

NODO1 NODO2 NODO3 NODO4 NODO5 NODO6

Todos los nodos con Lustre Cliente

14
CLUSTER HPCC
• Fuerza de trabajo para cálculo científico.
Todo a 64 bits.

Se cuenta con esta


herramienta
configurada y lista para
el trabajo pesado.

Son 960 cores en


clúster con un Tera de
RAM, con 20 TB de
almacenamiento.

4 supercomputadores
que no están en
clúster, de 256 GB de
RAM y 24 cores c/u.

15
UN EJEMPLO DE
POCESO EN HPCC
Proyecto actual de Ingeniería Genética entre el Igun (Instituto
de Ingeniería Genética de la Universidad Nacional y el grupo
GICOGE de la Universidad Distrital)
Resumen de los
elementos que se han
utilizado para correr el
proyecto.

Los withkNN.sh son los


scripts de ejecución por
grupos de cores para
poder paralelizar el
proceso,

16
UN EJEMPLO DE
POCESO EN HPCC
Proyecto actual de Ingeniería Genética entre el Igun (script de
ejecución). Monitor de procesamiento.
Se ejecutan en secuencia por grupos
de cores para lo cual usamos una Shell
run.sh.

Un hostfile es un grupo de
procesadores que se van a usar en una
sección del proceso. Ejemplo, host10

17
Elementos de la arquitectura Grid

WN: Nodo de trabajo

CE. Elemento de computo


WN 1
WN 2
WN N

R-GMA (GUMS)
GUMS. Monitor Grid para los Sistemas
Monitor
Centros de del usuario.
Procesamiento
SE. Elemento de Almacenamiento
CE
Administrador de
Trabajos
SE LFC. Lista catalogada de archivos
Bases de Datos

WMS CA. Entidad Certificadora


Manejador de Carga

My Proxy. Proxy Personalizado


UI LFC
Interfase de Usuario Catálogo de Datos

CA (VOMS)
Seguridad no replicada

MyProxy

Activo durante toda la tarea


Fuente: El autor
29/03/2019
18
Grid computing

29/03/2019 Fuente: adarsphatil.com


19
ESQUEMA DE UNA GRID

Fuente: Grid Computing with Globus – IBM Red Book

29/03/2019
20
MALLAS COMPUTACIONALES
• Modelo actual de la malla computacional UD que usan los
estudiantes de Maestría para sus investigaciones.
Grid Portal
Rumbo
Myproxy

Modelo a 64 bits. Grid FTP Repositorio


NTP (hpcc)

Los estudiantes de Wn-01


maestría actualmente
la usan para sustentar Red Cecad

sus tesis.
Cisco 3750

Un ejemplo:
L700
678 catridges
LDAP wn02
135.6 Tb
Open-CA
DNS

L100
174 catridges
69.6 Tb
Contenedor
CE - GT5

Discos wn03
Ds5029 IBM CA-globus
16 Tb

http://cecad.udistrital.edu.co/index.php?option=com_content&view=category&layout=blog&id=21&Itemid=52

21
MALLAS COMPUTACIONALES
• Prototipo de pruebas para Grid Colombia.

Modelo a 64
bits.

22
Referencias
[1] Prabhat and Quincey Koziol Lawrence. High Performance Parallel E/S.
Berkeley National Laboratory California and the HDF Group, Urbana-Champaign
Illinois, USA. Print ISBN: 978-1-4665-8234-7. eBook ISBN: 978-1-4665-8235-4
Laboratory.

[2] Foster, I. What is the Grid? A Three Point Checklist. Argonne National Laboratory
& University of Chicago, [email protected], Julio 2008.

[3] Li Ou, Xubin y otros. Design and Evaluation of a High Performance Parallel File
System. Tennessee Technological University, Cookeville, TN, 38505,
lou21,[email protected].

[4] Lofstead, J. y otros. Managing Variability in the IO Performance of Petascale


Storage Systems. 1College of Computing, Georgia Institute of Technology, Atlanta,
Georgia.

[5] Florin Isaila. Making the case for reforming the E/S software stack of extreme
scale systems. Argonne National Laboratory and University Carlos III.

23
Referencias (Continuación)
[7] Sotomayor Borja and Childers Lisa. Globus Toolkit 4. Programing Java
Services. University of Chicago. The Elseiver inc. San Francisco CA. U.S.A. 2006. Pp
3-39, 305-223, 431-491.

[8]. NGS – National Grid Service. Reino Unido. Abril 29 del 2008. Disponible en:
http://www.grid-support.ac.uk/

[9] Burke S y otros. gLite 3.0 and 3.1. User Guide Manual Series. CERN-LCG-
GDEIS-722398, Abril 7 del 2008. https://edms.cern.ch/file/722398//gLite-3-
UserGuide.pdf. Consultada. Abril 2007 y Julio 2008.

[10]. Lublinsky Boris y otros – Profesional Hadoop Solutions. España – Ediciones


Amaya. 2014. ISBN: 978-84-415-3591-6.

[11]. Avery Ching y otros. High-Performance Techniques for Parallel E/S.


Northwestern University. 2001.

[12] David B. Kirk and y otros. Programming Massively Parallel Processors.


NVIDIA Corporation. Published by Elsevier Inc. 2010.

24
Referencias (Continuación)
[13] Chao Wang, Sudharshan S. Vazhkudai1, Xiaosong Ma, and Frank Mueller .
Transparent Fault Tolerance for Job Input Data in HPC Environments. National Center
for Computational Sciences, Oak Ridge National Laboratory, Oak Ridge, TN. Qatar
Computing Research Institute, Doha, Qatar Department of Computer Science. January
14, 2014.

25
¡ GRACIAS !!!

26

También podría gustarte