Seguimiento simulaciones
(Página creada con «En esta página se describe el comportamiento del script para seguir las simulaciones corriendo en hydra En el directorio 'share' de hydra se encuentra la script que permi...») |
|||
Línea 9: | Línea 9: | ||
Por ejemplo, habiendo los siguientes jobs ejecutándose: |
Por ejemplo, habiendo los siguientes jobs ejecutándose: |
||
− | <PRE>/share/tools/work-flows/components/bats/check_runs.bash lluis |
+ | <PRE> |
+ | $ qstat |
||
+ | Job id Name User Time Use S Queue |
||
+ | ------------------------- ---------------- --------------- -------- - ----- |
||
+ | 10904.hydra wrf_control pzaninelli 2239:26: R larga |
||
+ | 10905.hydra run_exp-CTL pzaninelli 0 H larga |
||
+ | 10917.hydra wrf_phy6 pzaninelli 1752:57: R larga |
||
+ | 10918.hydra run_exp-Phy6 pzaninelli 0 H larga |
||
+ | 10928.hydra WRF_Aer_Clim maite.cancelada 1068:03: R larga |
||
+ | 10930.hydra WRF_Aer_500 maite.cancelada 1065:39: R larga |
||
+ | 10935.hydra wrf_phys6 lluis.fita 02:55:37 R larga |
||
+ | 10936.hydra RLPG18comp lluis.fita 03:28:58 R larga |
||
+ | </PRE> |
||
+ | Mi usuario corre 2 jobs con WRF: |
||
+ | <PRE>/share/tools/work-flows/components/bats/check_runs.bash lluis |
||
+ | wrf_phys6: 10935 3:ppn=24: node41,node42,node43, ... |
||
+ | Timing for main: time 2003-02-01_00:43:00 on domain 1: 13.04502 elapsed seconds |
||
+ | Timing for main: time 2003-02-01_00:44:00 on domain 1: 8.46639 elapsed seconds |
||
+ | Timing for main: time 2003-02-01_00:45:00 on domain 1: 8.45784 elapsed seconds |
||
+ | Timing for main: time 2003-02-01_00:46:00 on domain 1: 8.46446 elapsed seconds |
||
+ | Timing for main: time 2003-02-01_00:47:00 on domain 1: 8.44388 elapsed seconds |
||
+ | Timing for main: time 2003-02-01_00:48:00 on domain 1: 8.61903 elapsed seconds |
||
+ | Timing for main: time 2003-02-01_00:49:00 on domain 1: 8.44291 elapsed seconds |
||
+ | Timing for main: time 2003-02-01_00:50:00 on domain 1: 8.43376 elapsed seconds |
||
+ | Timing for main: time 2003-02-01_00:51:00 on domain 1: 8.44156 elapsed seconds |
||
+ | Timing for main: time 2003-02-01_00:52:00 on domain 1: 8.44032 elapsed seconds |
||
+ | -rw-r--r-- 1 lluis.fita cima 7609 Oct 28 09:51 /home/lluis.fita/estudios/WRFsensSFC/simulations/phys6/run/rsl.error.0000 |
||
+ | RLPG18comp: 10936 3:ppn=48: node65,node66,node67, ... |
||
+ | ims,ime,jms,jme -4 40 -4 40 |
||
+ | ips,ipe,jps,jpe 1 26 1 26 |
||
+ | INTERMEDIATE domain |
||
+ | ids,ide,jds,jde 210 276 141 207 |
||
+ | ims,ime,jms,jme 205 226 136 157 |
||
+ | ips,ipe,jps,jpe 208 216 139 147 |
||
+ | ************************************* |
||
+ | d01 2018-11-10_12:00:00 alloc_space_field: domain 2, 498352380 bytes allocated |
||
+ | RESTART: nest, opening wrfrst_d02_2018-11-10_12:00:00 for reading |
||
+ | d01 2018-11-10_12:00:00 Input data is acceptable to use: wrfrst_d02_2018-11-10_12:00:00 |
||
+ | -rw-r--r-- 1 lluis.fita cima 2611 Oct 28 09:48 /home/lluis.fita/estudios/RLPG20181110/compl3ndg/run/rsl.error.0000 |
||
</PRE> |
</PRE> |
||
+ | * <CODE>wrf_phys6: 10935 3:ppn=24: node41,node42,node43, ... </CODE>: [NombreJob]: [JobID] [Nnodes]:ppn=[CPUsNode]: [nodo1], ..., [nodoNnodes] |
||
+ | * Siguen las 10 últimas líneas del <COODE>rsl.error.0000</CODE>, así se sabe el paso de tiempo que estamos simulando |
||
+ | Timing for main: time 2003-02-01_00:43:00 on domain 1: 13.04502 elapsed seconds |
||
+ | Timing for main: time 2003-02-01_00:44:00 on domain 1: 8.46639 elapsed seconds |
||
+ | Timing for main: time 2003-02-01_00:45:00 on domain 1: 8.45784 elapsed seconds |
||
+ | Timing for main: time 2003-02-01_00:46:00 on domain 1: 8.46446 elapsed seconds |
||
+ | Timing for main: time 2003-02-01_00:47:00 on domain 1: 8.44388 elapsed seconds |
||
+ | Timing for main: time 2003-02-01_00:48:00 on domain 1: 8.61903 elapsed seconds |
||
+ | Timing for main: time 2003-02-01_00:49:00 on domain 1: 8.44291 elapsed seconds |
||
+ | Timing for main: time 2003-02-01_00:50:00 on domain 1: 8.43376 elapsed seconds |
||
+ | Timing for main: time 2003-02-01_00:51:00 on domain 1: 8.44156 elapsed seconds |
||
+ | Timing for main: time 2003-02-01_00:52:00 on domain 1: 8.44032 elapsed seconds |
||
+ | * Sigue un list del fichero <CODE>rsl.error.0000</CODE>: Tiene que estar a fecha del momento que se mira, puesto que se escribe en él constantemente. Si no es el caso, la simulación esta parada por algún motivo: cfl, HOME lleno, ... |
||
+ | -rw-r--r-- 1 lluis.fita cima 7609 Oct 28 09:51 /home/lluis.fita/estudios/WRFsensSFC/simulations/phys6/run/rsl.error.0000 |
||
+ | |||
+ | * <CODE>RLPG18comp: 10936 3:ppn=48: node65,node66,node67, ...</CODE>, simulación a 144 cores. |
||
+ | Todavía no empezó a simular, aún está leyendo los datos de entrada. |
||
+ | En caso de necesitar ayuda... |
||
<PRE>/share/tools/work-flows/components/bats/check_runs.bash -h |
<PRE>/share/tools/work-flows/components/bats/check_runs.bash -h |
||
********************************** |
********************************** |
Revisión de 09:57 28 oct 2019
En esta página se describe el comportamiento del script para seguir las simulaciones corriendo en hydra
En el directorio 'share' de hydra se encuentra la script que permite saber el estado de todas las simulaciones de wrf que tiene une usuarie ejecutándoe en el clúster check_runs.bash
.
El manejo es muy fácil, sólo falta pasarle el nombre de usuarie
/share/tools/work-flows/components/bats/check_runs.bash [NombreUsuarie]
Por ejemplo, habiendo los siguientes jobs ejecutándose:
$ qstat Job id Name User Time Use S Queue ------------------------- ---------------- --------------- -------- - ----- 10904.hydra wrf_control pzaninelli 2239:26: R larga 10905.hydra run_exp-CTL pzaninelli 0 H larga 10917.hydra wrf_phy6 pzaninelli 1752:57: R larga 10918.hydra run_exp-Phy6 pzaninelli 0 H larga 10928.hydra WRF_Aer_Clim maite.cancelada 1068:03: R larga 10930.hydra WRF_Aer_500 maite.cancelada 1065:39: R larga 10935.hydra wrf_phys6 lluis.fita 02:55:37 R larga 10936.hydra RLPG18comp lluis.fita 03:28:58 R larga
Mi usuario corre 2 jobs con WRF:
/share/tools/work-flows/components/bats/check_runs.bash lluis wrf_phys6: 10935 3:ppn=24: node41,node42,node43, ... Timing for main: time 2003-02-01_00:43:00 on domain 1: 13.04502 elapsed seconds Timing for main: time 2003-02-01_00:44:00 on domain 1: 8.46639 elapsed seconds Timing for main: time 2003-02-01_00:45:00 on domain 1: 8.45784 elapsed seconds Timing for main: time 2003-02-01_00:46:00 on domain 1: 8.46446 elapsed seconds Timing for main: time 2003-02-01_00:47:00 on domain 1: 8.44388 elapsed seconds Timing for main: time 2003-02-01_00:48:00 on domain 1: 8.61903 elapsed seconds Timing for main: time 2003-02-01_00:49:00 on domain 1: 8.44291 elapsed seconds Timing for main: time 2003-02-01_00:50:00 on domain 1: 8.43376 elapsed seconds Timing for main: time 2003-02-01_00:51:00 on domain 1: 8.44156 elapsed seconds Timing for main: time 2003-02-01_00:52:00 on domain 1: 8.44032 elapsed seconds -rw-r--r-- 1 lluis.fita cima 7609 Oct 28 09:51 /home/lluis.fita/estudios/WRFsensSFC/simulations/phys6/run/rsl.error.0000 RLPG18comp: 10936 3:ppn=48: node65,node66,node67, ... ims,ime,jms,jme -4 40 -4 40 ips,ipe,jps,jpe 1 26 1 26 INTERMEDIATE domain ids,ide,jds,jde 210 276 141 207 ims,ime,jms,jme 205 226 136 157 ips,ipe,jps,jpe 208 216 139 147 ************************************* d01 2018-11-10_12:00:00 alloc_space_field: domain 2, 498352380 bytes allocated RESTART: nest, opening wrfrst_d02_2018-11-10_12:00:00 for reading d01 2018-11-10_12:00:00 Input data is acceptable to use: wrfrst_d02_2018-11-10_12:00:00 -rw-r--r-- 1 lluis.fita cima 2611 Oct 28 09:48 /home/lluis.fita/estudios/RLPG20181110/compl3ndg/run/rsl.error.0000
-
wrf_phys6: 10935 3:ppn=24: node41,node42,node43, ...
: [NombreJob]: [JobID] [Nnodes]:ppn=[CPUsNode]: [nodo1], ..., [nodoNnodes] - Siguen las 10 últimas líneas del <COODE>rsl.error.0000</CODE>, así se sabe el paso de tiempo que estamos simulando
Timing for main: time 2003-02-01_00:43:00 on domain 1: 13.04502 elapsed seconds Timing for main: time 2003-02-01_00:44:00 on domain 1: 8.46639 elapsed seconds Timing for main: time 2003-02-01_00:45:00 on domain 1: 8.45784 elapsed seconds Timing for main: time 2003-02-01_00:46:00 on domain 1: 8.46446 elapsed seconds Timing for main: time 2003-02-01_00:47:00 on domain 1: 8.44388 elapsed seconds Timing for main: time 2003-02-01_00:48:00 on domain 1: 8.61903 elapsed seconds Timing for main: time 2003-02-01_00:49:00 on domain 1: 8.44291 elapsed seconds Timing for main: time 2003-02-01_00:50:00 on domain 1: 8.43376 elapsed seconds Timing for main: time 2003-02-01_00:51:00 on domain 1: 8.44156 elapsed seconds Timing for main: time 2003-02-01_00:52:00 on domain 1: 8.44032 elapsed seconds
- Sigue un list del fichero
rsl.error.0000
: Tiene que estar a fecha del momento que se mira, puesto que se escribe en él constantemente. Si no es el caso, la simulación esta parada por algún motivo: cfl, HOME lleno, ...
-rw-r--r-- 1 lluis.fita cima 7609 Oct 28 09:51 /home/lluis.fita/estudios/WRFsensSFC/simulations/phys6/run/rsl.error.0000
-
RLPG18comp: 10936 3:ppn=48: node65,node66,node67, ...
, simulación a 144 cores.
Todavía no empezó a simular, aún está leyendo los datos de entrada.
En caso de necesitar ayuda...
/share/tools/work-flows/components/bats/check_runs.bash -h ********************************** *** Checking state of curently *** *** running WRF simulations *** ********************************** [user](user name)