Seguimiento simulaciones

De Wikicima
Saltar a: navegación, buscar

En esta página se describe el comportamiento del script para seguir las simulaciones corriendo en hydra

En el directorio 'share' de hydra se encuentra la script que permite saber el estado de todas las simulaciones de wrf que tiene une usuarie ejecutándoe en el clúster check_runs.bash.

El manejo es muy fácil, sólo falta pasarle el nombre de usuarie

/share/tools/work-flows/components/bats/check_runs.bash [NombreUsuarie]

Ejemplo

Por ejemplo, habiendo los siguientes jobs ejecutándose:

$ qstat
Job id                    Name             User            Time Use S Queue
------------------------- ---------------- --------------- -------- - -----
10904.hydra                wrf_control      pzaninelli      2239:26: R larga          
10905.hydra                run_exp-CTL      pzaninelli             0 H larga          
10917.hydra                wrf_phy6         pzaninelli      1752:57: R larga          
10918.hydra                run_exp-Phy6     pzaninelli             0 H larga          
10928.hydra                WRF_Aer_Clim     maite.cancelada 1068:03: R larga          
10930.hydra                WRF_Aer_500      maite.cancelada 1065:39: R larga          
10935.hydra                wrf_phys6        lluis.fita      02:55:37 R larga          
10936.hydra                RLPG18comp       lluis.fita      03:28:58 R larga       

Mi usuario corre 2 jobs con WRF:

/share/tools/work-flows/components/bats/check_runs.bash lluis
wrf_phys6: 10935 3:ppn=24: node41,node42,node43, ...
Timing for main: time 2003-02-01_00:43:00 on domain   1:   13.04502 elapsed seconds
Timing for main: time 2003-02-01_00:44:00 on domain   1:    8.46639 elapsed seconds
Timing for main: time 2003-02-01_00:45:00 on domain   1:    8.45784 elapsed seconds
Timing for main: time 2003-02-01_00:46:00 on domain   1:    8.46446 elapsed seconds
Timing for main: time 2003-02-01_00:47:00 on domain   1:    8.44388 elapsed seconds
Timing for main: time 2003-02-01_00:48:00 on domain   1:    8.61903 elapsed seconds
Timing for main: time 2003-02-01_00:49:00 on domain   1:    8.44291 elapsed seconds
Timing for main: time 2003-02-01_00:50:00 on domain   1:    8.43376 elapsed seconds
Timing for main: time 2003-02-01_00:51:00 on domain   1:    8.44156 elapsed seconds
Timing for main: time 2003-02-01_00:52:00 on domain   1:    8.44032 elapsed seconds
-rw-r--r-- 1 lluis.fita cima 7609 Oct 28 09:51 /home/lluis.fita/estudios/WRFsensSFC/simulations/phys6/run/rsl.error.0000
RLPG18comp: 10936 3:ppn=48: node65,node66,node67, ...
 ims,ime,jms,jme           -4          40          -4          40
 ips,ipe,jps,jpe            1          26           1          26
 INTERMEDIATE domain
 ids,ide,jds,jde          210         276         141         207
 ims,ime,jms,jme          205         226         136         157
 ips,ipe,jps,jpe          208         216         139         147
 *************************************
d01 2018-11-10_12:00:00  alloc_space_field: domain            2,              498352380 bytes allocated
 RESTART: nest, opening wrfrst_d02_2018-11-10_12:00:00 for reading
d01 2018-11-10_12:00:00  Input data is acceptable to use: wrfrst_d02_2018-11-10_12:00:00
-rw-r--r-- 1 lluis.fita cima 2611 Oct 28 09:48 /home/lluis.fita/estudios/RLPG20181110/compl3ndg/run/rsl.error.0000
  • wrf_phys6: 10935 3:ppn=24: node41,node42,node43, ... : [NombreJob]: [JobID] [Nnodes]:ppn=[CPUsNode]: [nodo1], ..., [nodoNnodes]
  • Siguen las 10 últimas líneas del rsl.error.0000, así se sabe el paso de tiempo que estamos simulando
Timing for main: time 2003-02-01_00:43:00 on domain   1:   13.04502 elapsed seconds
Timing for main: time 2003-02-01_00:44:00 on domain   1:    8.46639 elapsed seconds
Timing for main: time 2003-02-01_00:45:00 on domain   1:    8.45784 elapsed seconds
Timing for main: time 2003-02-01_00:46:00 on domain   1:    8.46446 elapsed seconds
Timing for main: time 2003-02-01_00:47:00 on domain   1:    8.44388 elapsed seconds
Timing for main: time 2003-02-01_00:48:00 on domain   1:    8.61903 elapsed seconds
Timing for main: time 2003-02-01_00:49:00 on domain   1:    8.44291 elapsed seconds
Timing for main: time 2003-02-01_00:50:00 on domain   1:    8.43376 elapsed seconds
Timing for main: time 2003-02-01_00:51:00 on domain   1:    8.44156 elapsed seconds
Timing for main: time 2003-02-01_00:52:00 on domain   1:    8.44032 elapsed seconds
  • Sigue un list del fichero rsl.error.0000: Tiene que estar a fecha del momento que se mira, puesto que se escribe en él constantemente. Si no es el caso, la simulación esta parada por algún motivo: cfl, HOME lleno, ...

-rw-r--r-- 1 lluis.fita cima 7609 Oct 28 09:51 /home/lluis.fita/estudios/WRFsensSFC/simulations/phys6/run/rsl.error.0000

  • RLPG18comp: 10936 3:ppn=48: node65,node66,node67, ..., simulación a 144 cores.

Todavía no empezó a simular, aún está leyendo los datos de entrada.

Ayuda

En caso de necesitar ayuda...

/share/tools/work-flows/components/bats/check_runs.bash -h
**********************************
*** Checking state of curently ***
***   running WRF simulations  ***
**********************************
  [user](user name)
Herramientas personales