Task 15822885

Name	hadcm3n_o0qm_1980_40_008387128_0
Workunit	8537987
Created	3 Jun 2013, 8:54:26 UTC
Sent	7 Jun 2013, 19:45:02 UTC
Report deadline	7 Sep 2013, 3:12:13 UTC
Received	26 Jun 2013, 1:57:42 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	22 (0x00000016) Unknown error code
Computer ID	1274200
Run time	10 days 22 hours 39 min 8 sec
CPU time	10 days 14 hours 37 min 14 sec
Validate state	Invalid
Credit	10,264.32
Device peak FLOPS	3.29 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>7.0.64</core_client_version> <![CDATA[ <message> Das Gerät erkennt den Befehl nicht. (0x16) - exit code 22 (0x16) </message> <stderr_txt> Suspended CPDN Monitor - Suspend request from BOINC... 08:58:46 (5768): No heartbeat from core client for 30 sec - exiting 08:58:47 (5768): No heartbeat from core client for 30 sec - exiting 08:58:48 (5768): No heartbeat from core client for 30 sec - exiting 08:58:49 (5768): No heartbeat from core client for 30 sec - exiting 08:58:50 (5768): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 08:58:51 (5768): No heartbeat from core client for 30 sec - exiting CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 20:14:33 (4484): No heartbeat from core client for 30 sec - exiting 20:14:34 (4484): No heartbeat from core client for 30 sec - exiting 20:14:36 (4484): No heartbeat from core client for 30 sec - exiting 20:14:37 (4484): No heartbeat from core client for 30 sec - exiting 20:14:38 (4484): No heartbeat from core client for 30 sec - exiting 20:14:39 (4484): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 21:55:27 (5340): No heartbeat from core client for 30 sec - exiting 21:55:28 (5340): No heartbeat from core client for 30 sec - exiting 21:55:29 (5340): No heartbeat from core client for 30 sec - exiting 21:55:30 (5340): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... 19:42:56 (5820): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5344, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=6020, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Model crashed: ATM_DYN : INVALID THETA DETECTED. tmp/pipe_dummy 2048 CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5560, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5248, iMonCtr=1 Model crash detected, will try to restart... 14:20:26 (5048): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5692, iMonCtr=1 Model crash detected, will try to restart... 00:47:09 (2916): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... 07:04:55 (4188): No heartbeat from core client for 30 sec - exiting 07:04:56 (4188): No heartbeat from core client for 30 sec - exiting 07:04:57 (4188): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... 20:05:02 (5940): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 19:29:42 (3904): No heartbeat from core client for 30 sec - exiting 19:29:43 (3904): No heartbeat from core client for 30 sec - exiting 19:29:44 (3904): No heartbeat from core client for 30 sec - exiting 19:29:45 (3904): No heartbeat from core client for 30 sec - exiting 19:29:46 (3904): No heartbeat from core client for 30 sec - exiting 19:29:47 (3904): No heartbeat from core client for 30 sec - exiting 19:29:48 (3904): No heartbeat from core client for 30 sec - exiting 19:29:49 (3904): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3036, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3036, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5644, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5644, iMonCtr=1 Model crash detected, will try to restart... 02:56:46 (5644): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 02:56:47 (5644): No heartbeat from core client for 30 sec - exiting Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5884, iMonCtr=1 Model crash detected, will try to restart... Signal 22 received, exiting... Called boinc_finish Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5884, iMonCtr=1 Model crash detected, will try to restart... Sorry, too many model crashes! :-( Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
25 Jun 2013 05:49:56	1274200	15822885	hadcm3n_o0qm_1980_40_008387128_0	855,360	906,780	1.0601
24 Jun 2013 22:10:30	1274200	15822885	hadcm3n_o0qm_1980_40_008387128_0	829,440	879,710	1.0606
24 Jun 2013 00:36:04	1274200	15822885	hadcm3n_o0qm_1980_40_008387128_0	803,520	852,641	1.0611
23 Jun 2013 16:35:43	1274200	15822885	hadcm3n_o0qm_1980_40_008387128_0	777,600	825,481	1.0616
23 Jun 2013 08:26:33	1274200	15822885	hadcm3n_o0qm_1980_40_008387128_0	751,680	797,670	1.0612
23 Jun 2013 00:53:22	1274200	15822885	hadcm3n_o0qm_1980_40_008387128_0	725,760	770,234	1.0613
22 Jun 2013 15:24:08	1274200	15822885	hadcm3n_o0qm_1980_40_008387128_0	699,840	742,660	1.0612
22 Jun 2013 07:56:06	1274200	15822885	hadcm3n_o0qm_1980_40_008387128_0	673,920	714,840	1.0607
20 Jun 2013 21:31:46	1274200	15822885	hadcm3n_o0qm_1980_40_008387128_0	648,000	687,664	1.0612
20 Jun 2013 03:50:51	1274200	15822885	hadcm3n_o0qm_1980_40_008387128_0	622,080	660,013	1.0610
19 Jun 2013 13:43:33	1274200	15822885	hadcm3n_o0qm_1980_40_008387128_0	596,160	654,735	1.0983
19 Jun 2013 01:12:54	1274200	15822885	hadcm3n_o0qm_1980_40_008387128_0	570,240	626,799	1.0992
17 Jun 2013 23:18:57	1274200	15822885	hadcm3n_o0qm_1980_40_008387128_0	544,320	598,359	1.0993
17 Jun 2013 13:32:52	1274200	15822885	hadcm3n_o0qm_1980_40_008387128_0	518,400	570,562	1.1006
17 Jun 2013 05:49:45	1274200	15822885	hadcm3n_o0qm_1980_40_008387128_0	492,480	542,964	1.1025
16 Jun 2013 16:45:01	1274200	15822885	hadcm3n_o0qm_1980_40_008387128_0	466,560	514,913	1.1036
16 Jun 2013 00:17:14	1274200	15822885	hadcm3n_o0qm_1980_40_008387128_0	440,640	486,656	1.1044
15 Jun 2013 15:37:34	1274200	15822885	hadcm3n_o0qm_1980_40_008387128_0	414,720	458,227	1.1049
15 Jun 2013 06:53:58	1274200	15822885	hadcm3n_o0qm_1980_40_008387128_0	388,800	429,578	1.1049
14 Jun 2013 23:55:47	1274200	15822885	hadcm3n_o0qm_1980_40_008387128_0	362,880	401,505	1.1064