Task 15281034

Name	hadcm3n_zm32_1880_40_008201022_1
Workunit	8356146
Created	13 Sep 2012, 10:36:33 UTC
Sent	13 Sep 2012, 19:31:31 UTC
Report deadline	14 Dec 2012, 2:58:42 UTC
Received	30 Sep 2012, 16:06:45 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1169472
Run time	6 days 6 hours 45 min 36 sec
CPU time	6 days 5 hours 36 min 41 sec
Validate state	Invalid
Credit	4,665.60
Device peak FLOPS	2.64 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>7.0.28</core_client_version> <![CDATA[ <message> The device does not recognize the command. (0x16) - exit code 22 (0x16) </message> <stderr_txt> Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3956, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5316, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3644, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3736, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3852, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3852, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3852, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3852, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3852, iMonCtr=1 Model crash detected, will try to restart... 18:03:36 (3852): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4596, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
28 Sep 2012 12:02:01	1169472	15281034	hadcm3n_zm32_1880_40_008201022_1	388,800	526,063	1.3530
26 Sep 2012 18:29:08	1169472	15281034	hadcm3n_zm32_1880_40_008201022_1	362,880	490,983	1.3530
26 Sep 2012 02:41:17	1169472	15281034	hadcm3n_zm32_1880_40_008201022_1	336,960	455,167	1.3508
24 Sep 2012 19:38:08	1169472	15281034	hadcm3n_zm32_1880_40_008201022_1	311,040	419,555	1.3489
23 Sep 2012 05:40:34	1169472	15281034	hadcm3n_zm32_1880_40_008201022_1	285,120	384,438	1.3483
22 Sep 2012 16:29:48	1169472	15281034	hadcm3n_zm32_1880_40_008201022_1	259,200	348,531	1.3446
22 Sep 2012 06:47:33	1169472	15281034	hadcm3n_zm32_1880_40_008201022_1	233,280	314,105	1.3465
21 Sep 2012 00:50:30	1169472	15281034	hadcm3n_zm32_1880_40_008201022_1	207,360	279,511	1.3480
20 Sep 2012 10:16:59	1169472	15281034	hadcm3n_zm32_1880_40_008201022_1	181,440	244,759	1.3490
19 Sep 2012 21:58:40	1169472	15281034	hadcm3n_zm32_1880_40_008201022_1	155,520	209,861	1.3494
19 Sep 2012 14:29:28	1169472	15281034	hadcm3n_zm32_1880_40_008201022_1	129,600	175,074	1.3509
17 Sep 2012 23:08:08	1169472	15281034	hadcm3n_zm32_1880_40_008201022_1	103,680	139,519	1.3457
16 Sep 2012 14:51:01	1169472	15281034	hadcm3n_zm32_1880_40_008201022_1	77,760	105,201	1.3529
16 Sep 2012 05:03:39	1169472	15281034	hadcm3n_zm32_1880_40_008201022_1	51,840	71,300	1.3754
15 Sep 2012 02:46:12	1169472	15281034	hadcm3n_zm32_1880_40_008201022_1	25,920	35,754	1.3794