Seguimiento simulaciones

De Wikicima
(Diferencias entre revisiones)
Saltar a: navegación, buscar
(Página creada con «En esta página se describe el comportamiento del script para seguir las simulaciones corriendo en hydra En el directorio 'share' de hydra se encuentra la script que permi...»)
 
Línea 9: Línea 9:
 
Por ejemplo, habiendo los siguientes jobs ejecutándose:
 
Por ejemplo, habiendo los siguientes jobs ejecutándose:
   
<PRE>/share/tools/work-flows/components/bats/check_runs.bash lluis
+
<PRE>
  +
$ qstat
  +
Job id Name User Time Use S Queue
  +
------------------------- ---------------- --------------- -------- - -----
  +
10904.hydra wrf_control pzaninelli 2239:26: R larga
  +
10905.hydra run_exp-CTL pzaninelli 0 H larga
  +
10917.hydra wrf_phy6 pzaninelli 1752:57: R larga
  +
10918.hydra run_exp-Phy6 pzaninelli 0 H larga
  +
10928.hydra WRF_Aer_Clim maite.cancelada 1068:03: R larga
  +
10930.hydra WRF_Aer_500 maite.cancelada 1065:39: R larga
  +
10935.hydra wrf_phys6 lluis.fita 02:55:37 R larga
  +
10936.hydra RLPG18comp lluis.fita 03:28:58 R larga
  +
</PRE>
   
  +
Mi usuario corre 2 jobs con WRF:
  +
<PRE>/share/tools/work-flows/components/bats/check_runs.bash lluis
  +
wrf_phys6: 10935 3:ppn=24: node41,node42,node43, ...
  +
Timing for main: time 2003-02-01_00:43:00 on domain 1: 13.04502 elapsed seconds
  +
Timing for main: time 2003-02-01_00:44:00 on domain 1: 8.46639 elapsed seconds
  +
Timing for main: time 2003-02-01_00:45:00 on domain 1: 8.45784 elapsed seconds
  +
Timing for main: time 2003-02-01_00:46:00 on domain 1: 8.46446 elapsed seconds
  +
Timing for main: time 2003-02-01_00:47:00 on domain 1: 8.44388 elapsed seconds
  +
Timing for main: time 2003-02-01_00:48:00 on domain 1: 8.61903 elapsed seconds
  +
Timing for main: time 2003-02-01_00:49:00 on domain 1: 8.44291 elapsed seconds
  +
Timing for main: time 2003-02-01_00:50:00 on domain 1: 8.43376 elapsed seconds
  +
Timing for main: time 2003-02-01_00:51:00 on domain 1: 8.44156 elapsed seconds
  +
Timing for main: time 2003-02-01_00:52:00 on domain 1: 8.44032 elapsed seconds
  +
-rw-r--r-- 1 lluis.fita cima 7609 Oct 28 09:51 /home/lluis.fita/estudios/WRFsensSFC/simulations/phys6/run/rsl.error.0000
  +
RLPG18comp: 10936 3:ppn=48: node65,node66,node67, ...
  +
ims,ime,jms,jme -4 40 -4 40
  +
ips,ipe,jps,jpe 1 26 1 26
  +
INTERMEDIATE domain
  +
ids,ide,jds,jde 210 276 141 207
  +
ims,ime,jms,jme 205 226 136 157
  +
ips,ipe,jps,jpe 208 216 139 147
  +
*************************************
  +
d01 2018-11-10_12:00:00 alloc_space_field: domain 2, 498352380 bytes allocated
  +
RESTART: nest, opening wrfrst_d02_2018-11-10_12:00:00 for reading
  +
d01 2018-11-10_12:00:00 Input data is acceptable to use: wrfrst_d02_2018-11-10_12:00:00
  +
-rw-r--r-- 1 lluis.fita cima 2611 Oct 28 09:48 /home/lluis.fita/estudios/RLPG20181110/compl3ndg/run/rsl.error.0000
 
</PRE>
 
</PRE>
   
  +
* <CODE>wrf_phys6: 10935 3:ppn=24: node41,node42,node43, ... </CODE>: [NombreJob]: [JobID] [Nnodes]:ppn=[CPUsNode]: [nodo1], ..., [nodoNnodes]
  +
* Siguen las 10 últimas líneas del <COODE>rsl.error.0000</CODE>, así se sabe el paso de tiempo que estamos simulando
  +
Timing for main: time 2003-02-01_00:43:00 on domain 1: 13.04502 elapsed seconds
  +
Timing for main: time 2003-02-01_00:44:00 on domain 1: 8.46639 elapsed seconds
  +
Timing for main: time 2003-02-01_00:45:00 on domain 1: 8.45784 elapsed seconds
  +
Timing for main: time 2003-02-01_00:46:00 on domain 1: 8.46446 elapsed seconds
  +
Timing for main: time 2003-02-01_00:47:00 on domain 1: 8.44388 elapsed seconds
  +
Timing for main: time 2003-02-01_00:48:00 on domain 1: 8.61903 elapsed seconds
  +
Timing for main: time 2003-02-01_00:49:00 on domain 1: 8.44291 elapsed seconds
  +
Timing for main: time 2003-02-01_00:50:00 on domain 1: 8.43376 elapsed seconds
  +
Timing for main: time 2003-02-01_00:51:00 on domain 1: 8.44156 elapsed seconds
  +
Timing for main: time 2003-02-01_00:52:00 on domain 1: 8.44032 elapsed seconds
  +
* Sigue un list del fichero <CODE>rsl.error.0000</CODE>: Tiene que estar a fecha del momento que se mira, puesto que se escribe en él constantemente. Si no es el caso, la simulación esta parada por algún motivo: cfl, HOME lleno, ...
  +
-rw-r--r-- 1 lluis.fita cima 7609 Oct 28 09:51 /home/lluis.fita/estudios/WRFsensSFC/simulations/phys6/run/rsl.error.0000
  +
  +
* <CODE>RLPG18comp: 10936 3:ppn=48: node65,node66,node67, ...</CODE>, simulación a 144 cores.
  +
Todavía no empezó a simular, aún está leyendo los datos de entrada.
   
  +
En caso de necesitar ayuda...
 
<PRE>/share/tools/work-flows/components/bats/check_runs.bash -h
 
<PRE>/share/tools/work-flows/components/bats/check_runs.bash -h
 
**********************************
 
**********************************

Revisión de 09:57 28 oct 2019

En esta página se describe el comportamiento del script para seguir las simulaciones corriendo en hydra

En el directorio 'share' de hydra se encuentra la script que permite saber el estado de todas las simulaciones de wrf que tiene une usuarie ejecutándoe en el clúster check_runs.bash.

El manejo es muy fácil, sólo falta pasarle el nombre de usuarie

/share/tools/work-flows/components/bats/check_runs.bash [NombreUsuarie]

Por ejemplo, habiendo los siguientes jobs ejecutándose:

$ qstat
Job id                    Name             User            Time Use S Queue
------------------------- ---------------- --------------- -------- - -----
10904.hydra                wrf_control      pzaninelli      2239:26: R larga          
10905.hydra                run_exp-CTL      pzaninelli             0 H larga          
10917.hydra                wrf_phy6         pzaninelli      1752:57: R larga          
10918.hydra                run_exp-Phy6     pzaninelli             0 H larga          
10928.hydra                WRF_Aer_Clim     maite.cancelada 1068:03: R larga          
10930.hydra                WRF_Aer_500      maite.cancelada 1065:39: R larga          
10935.hydra                wrf_phys6        lluis.fita      02:55:37 R larga          
10936.hydra                RLPG18comp       lluis.fita      03:28:58 R larga       

Mi usuario corre 2 jobs con WRF:

/share/tools/work-flows/components/bats/check_runs.bash lluis
wrf_phys6: 10935 3:ppn=24: node41,node42,node43, ...
Timing for main: time 2003-02-01_00:43:00 on domain   1:   13.04502 elapsed seconds
Timing for main: time 2003-02-01_00:44:00 on domain   1:    8.46639 elapsed seconds
Timing for main: time 2003-02-01_00:45:00 on domain   1:    8.45784 elapsed seconds
Timing for main: time 2003-02-01_00:46:00 on domain   1:    8.46446 elapsed seconds
Timing for main: time 2003-02-01_00:47:00 on domain   1:    8.44388 elapsed seconds
Timing for main: time 2003-02-01_00:48:00 on domain   1:    8.61903 elapsed seconds
Timing for main: time 2003-02-01_00:49:00 on domain   1:    8.44291 elapsed seconds
Timing for main: time 2003-02-01_00:50:00 on domain   1:    8.43376 elapsed seconds
Timing for main: time 2003-02-01_00:51:00 on domain   1:    8.44156 elapsed seconds
Timing for main: time 2003-02-01_00:52:00 on domain   1:    8.44032 elapsed seconds
-rw-r--r-- 1 lluis.fita cima 7609 Oct 28 09:51 /home/lluis.fita/estudios/WRFsensSFC/simulations/phys6/run/rsl.error.0000
RLPG18comp: 10936 3:ppn=48: node65,node66,node67, ...
 ims,ime,jms,jme           -4          40          -4          40
 ips,ipe,jps,jpe            1          26           1          26
 INTERMEDIATE domain
 ids,ide,jds,jde          210         276         141         207
 ims,ime,jms,jme          205         226         136         157
 ips,ipe,jps,jpe          208         216         139         147
 *************************************
d01 2018-11-10_12:00:00  alloc_space_field: domain            2,              498352380 bytes allocated
 RESTART: nest, opening wrfrst_d02_2018-11-10_12:00:00 for reading
d01 2018-11-10_12:00:00  Input data is acceptable to use: wrfrst_d02_2018-11-10_12:00:00
-rw-r--r-- 1 lluis.fita cima 2611 Oct 28 09:48 /home/lluis.fita/estudios/RLPG20181110/compl3ndg/run/rsl.error.0000
  • wrf_phys6: 10935 3:ppn=24: node41,node42,node43, ... : [NombreJob]: [JobID] [Nnodes]:ppn=[CPUsNode]: [nodo1], ..., [nodoNnodes]
  • Siguen las 10 últimas líneas del <COODE>rsl.error.0000</CODE>, así se sabe el paso de tiempo que estamos simulando

Timing for main: time 2003-02-01_00:43:00 on domain 1: 13.04502 elapsed seconds Timing for main: time 2003-02-01_00:44:00 on domain 1: 8.46639 elapsed seconds Timing for main: time 2003-02-01_00:45:00 on domain 1: 8.45784 elapsed seconds Timing for main: time 2003-02-01_00:46:00 on domain 1: 8.46446 elapsed seconds Timing for main: time 2003-02-01_00:47:00 on domain 1: 8.44388 elapsed seconds Timing for main: time 2003-02-01_00:48:00 on domain 1: 8.61903 elapsed seconds Timing for main: time 2003-02-01_00:49:00 on domain 1: 8.44291 elapsed seconds Timing for main: time 2003-02-01_00:50:00 on domain 1: 8.43376 elapsed seconds Timing for main: time 2003-02-01_00:51:00 on domain 1: 8.44156 elapsed seconds Timing for main: time 2003-02-01_00:52:00 on domain 1: 8.44032 elapsed seconds

  • Sigue un list del fichero rsl.error.0000: Tiene que estar a fecha del momento que se mira, puesto que se escribe en él constantemente. Si no es el caso, la simulación esta parada por algún motivo: cfl, HOME lleno, ...

-rw-r--r-- 1 lluis.fita cima 7609 Oct 28 09:51 /home/lluis.fita/estudios/WRFsensSFC/simulations/phys6/run/rsl.error.0000

  • RLPG18comp: 10936 3:ppn=48: node65,node66,node67, ..., simulación a 144 cores.

Todavía no empezó a simular, aún está leyendo los datos de entrada.

En caso de necesitar ayuda...

/share/tools/work-flows/components/bats/check_runs.bash -h
**********************************
*** Checking state of curently ***
***   running WRF simulations  ***
**********************************
  [user](user name)
Herramientas personales