Task 13544913

Name	hadcm3n_yc61_1900_40_007519615_0
Workunit	7717090
Created	28 Oct 2011, 13:03:50 UTC
Sent	4 Nov 2011, 22:54:25 UTC
Report deadline	4 Feb 2012, 6:21:36 UTC
Received	30 Dec 2011, 11:36:30 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1157438
Run time	21 days 18 hours 5 min 27 sec
CPU time	21 days 3 hours 14 min 50 sec
Validate state	Invalid
Credit	6,531.84
Device peak FLOPS	2.26 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>6.12.34</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 17:47:50 (4896): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6100, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2616, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3964, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=2796, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 09:58:41 (3576): No heartbeat from core client for 30 sec - exiting 09:58:42 (3576): No heartbeat from core client for 30 sec - exiting 09:58:43 (3576): No heartbeat from core client for 30 sec - exiting 09:58:44 (3576): No heartbeat from core client for 30 sec - exiting 09:58:46 (3576): No heartbeat from core client for 30 sec - exiting 09:58:47 (3576): No heartbeat from core client for 30 sec - exiting 09:58:48 (3576): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4232, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4232, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4232, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3528, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3528, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=1944, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
29 Dec 2011 21:31:13	1157438	13544913	hadcm3n_yc61_1900_40_007519615_0	544,320	1,788,973	3.2866
29 Dec 2011 02:52:14	1157438	13544913	hadcm3n_yc61_1900_40_007519615_0	518,400	1,725,483	3.3285
28 Dec 2011 09:14:50	1157438	13544913	hadcm3n_yc61_1900_40_007519615_0	492,480	1,661,572	3.3739
27 Dec 2011 00:45:30	1157438	13544913	hadcm3n_yc61_1900_40_007519615_0	466,560	1,598,602	3.4264
26 Dec 2011 08:04:59	1157438	13544913	hadcm3n_yc61_1900_40_007519615_0	440,640	1,529,230	3.4705
24 Dec 2011 18:10:03	1157438	13544913	hadcm3n_yc61_1900_40_007519615_0	414,720	1,424,958	3.4360
16 Dec 2011 07:46:16	1157438	13544913	hadcm3n_yc61_1900_40_007519615_0	388,800	1,314,677	3.3814
09 Dec 2011 19:17:03	1157438	13544913	hadcm3n_yc61_1900_40_007519615_0	362,880	1,205,799	3.3229
08 Dec 2011 13:44:26	1157438	13544913	hadcm3n_yc61_1900_40_007519615_0	336,960	1,103,884	3.2760
06 Dec 2011 05:58:58	1157438	13544913	hadcm3n_yc61_1900_40_007519615_0	311,040	1,003,390	3.2259
05 Dec 2011 20:55:25	1157438	13544913	hadcm3n_yc61_1900_40_007519615_0	285,120	914,736	3.2082
05 Dec 2011 20:55:25	1157438	13544913	hadcm3n_yc61_1900_40_007519615_0	259,200	835,162	3.2221
03 Dec 2011 05:15:29	1157438	13544913	hadcm3n_yc61_1900_40_007519615_0	233,280	745,614	3.1962
19 Nov 2011 07:13:14	1157438	13544913	hadcm3n_yc61_1900_40_007519615_0	207,360	659,435	3.1801
17 Nov 2011 15:35:11	1157438	13544913	hadcm3n_yc61_1900_40_007519615_0	181,440	572,902	3.1575
16 Nov 2011 05:43:23	1157438	13544913	hadcm3n_yc61_1900_40_007519615_0	155,520	492,505	3.1668
16 Nov 2011 05:43:23	1157438	13544913	hadcm3n_yc61_1900_40_007519615_0	129,600	404,574	3.1217
16 Nov 2011 05:43:23	1157438	13544913	hadcm3n_yc61_1900_40_007519615_0	103,680	317,207	3.0595
16 Nov 2011 05:43:23	1157438	13544913	hadcm3n_yc61_1900_40_007519615_0	77,760	237,672	3.0565
09 Nov 2011 06:16:47	1157438	13544913	hadcm3n_yc61_1900_40_007519615_0	51,840	152,235	2.9366