Task 13126932

Name	hadcm3n_ym4g_1900_40_007361530_1
Workunit	7558960
Created	6 Jul 2011, 15:19:48 UTC
Sent	7 Jul 2011, 13:08:07 UTC
Report deadline	6 Oct 2011, 20:35:18 UTC
Received	13 Aug 2011, 13:52:41 UTC
Server state	Over
Outcome	Computation error
Client state	Compute error
Exit status	25 (0x00000019) Unknown error code
Computer ID	1346606
Run time	23 days 12 hours 42 min 32 sec
CPU time	22 days 15 hours 24 min 56 sec
Validate state	Invalid
Credit	11,508.48
Device peak FLOPS	3.00 GFLOPS
Application version	UK Met Office Coupled Model Full Resolution Ocean v6.07 windows_intelx86
Stderr	<core_client_version>6.12.33</core_client_version> <![CDATA[ <message> The drive cannot locate a specific area or track on the disk. (0x19) - exit code 25 (0x19) </message> <stderr_txt> CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=3716, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5612, iMonCtr=1 Model crash detected, will try to restart... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... BUFFIN: C I/O Error feof - Unit 63 - Return code = 16 BUFFIN: C I/O Error feof - Unit 64 - Return code = 16 BUFFIN: C I/O Error feof - Unit 65 - Return code = 16 BUFFIN: C I/O Error feof - Unit 66 - Return code = 16 BUFFIN: C I/O Error feof - Unit 67 - Return code = 16 BUFFIN: C I/O Error feof - Unit 68 - Return code = 16 BUFFIN: C I/O Error feof - Unit 69 - Return code = 16 Error converting file to netcdf: dataout/ym4gko.pjb7c10 Error converting file to netcdf: dataout/ym4gko.pib7c10 Error converting file to netcdf: dataout/ym4gko.pfb7c10 Error converting file to netcdf: dataout/ym4gka.phb7c10 Error converting file to netcdf: dataout/ym4gka.pgb7c10 Error converting file to netcdf: dataout/ym4gka.peb7c10 Error converting file to netcdf: dataout/ym4gka.pdb7c10 Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... CPDN Monitor - Quit request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 13:30:46 (4596): No heartbeat from core client for 30 sec - exiting 13:30:47 (4596): No heartbeat from core client for 30 sec - exiting 13:30:48 (4596): No heartbeat from core client for 30 sec - exiting 13:30:49 (4596): No heartbeat from core client for 30 sec - exiting 13:30:50 (4596): No heartbeat from core client for 30 sec - exiting 13:30:52 (4596): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... CPDN Monitor - Quit request from BOINC... 14:04:16 (3360): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 09:28:18 (5560): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 19:30:51 (5464): No heartbeat from core client for 30 sec - exiting 19:30:52 (5464): No heartbeat from core client for 30 sec - exiting 19:30:53 (5464): No heartbeat from core client for 30 sec - exiting 19:30:54 (5464): No heartbeat from core client for 30 sec - exiting 19:30:55 (5464): No heartbeat from core client for 30 sec - exiting 19:30:56 (5464): No heartbeat from core client for 30 sec - exiting 19:30:58 (5464): No heartbeat from core client for 30 sec - exiting 19:30:59 (5464): No heartbeat from core client for 30 sec - exiting 19:31:00 (5464): No heartbeat from core client for 30 sec - exiting 19:31:01 (5464): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... 13:31:00 (5708): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... 15:02:04 (5956): No heartbeat from core client for 30 sec - exiting CPDN Monitor - No 'heartbeat' from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=1172, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=5512, iMonCtr=1 Model crash detected, will try to restart... Controller:: CPDN process is not running, exiting, bRetVal = 1, checkPID=0, selfPID=4672, iMonCtr=1 Model crash detected, will try to restart... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... CPDN Monitor - Quit request from BOINC... BUFFIN: C I/O Error feof - Unit 63 - Return code = 16 BUFFIN: C I/O Error feof - Unit 64 - Return code = 16 BUFFIN: C I/O Error feof - Unit 65 - Return code = 16 BUFFIN: C I/O Error feof - Unit 66 - Return code = 16 BUFFIN: C I/O Error feof - Unit 67 - Return code = 16 BUFFIN: C I/O Error feof - Unit 68 - Return code = 16 BUFFIN: C I/O Error feof - Unit 69 - Return code = 16 Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Suspended CPDN Monitor - Suspend request from BOINC... Called boinc_finish </stderr_txt> ]]>

Latest Trickles Received
Time Sent (UTC)	Host ID	Result ID	Result Name	Timestep	CPU Time (sec)	Average (sec/TS)
12 Aug 2011 19:11:10	1155695	13126932	hadcm3n_ym4g_1900_40_007361530_1	959,040	1,921,740	2.0038
11 Aug 2011 16:56:52	1155695	13126932	hadcm3n_ym4g_1900_40_007361530_1	933,120	1,874,982	2.0094
10 Aug 2011 00:40:17	1155695	13126932	hadcm3n_ym4g_1900_40_007361530_1	907,200	1,828,553	2.0156
09 Aug 2011 10:41:56	1155695	13126932	hadcm3n_ym4g_1900_40_007361530_1	881,280	1,783,382	2.0236
08 Aug 2011 18:50:12	1155695	13126932	hadcm3n_ym4g_1900_40_007361530_1	855,360	1,737,522	2.0313
08 Aug 2011 00:26:33	1155695	13126932	hadcm3n_ym4g_1900_40_007361530_1	829,440	1,690,979	2.0387
07 Aug 2011 11:25:55	1155695	13126932	hadcm3n_ym4g_1900_40_007361530_1	803,520	1,646,125	2.0486
06 Aug 2011 20:59:41	1155695	13126932	hadcm3n_ym4g_1900_40_007361530_1	777,600	1,600,144	2.0578
06 Aug 2011 07:32:20	1155695	13126932	hadcm3n_ym4g_1900_40_007361530_1	751,680	1,553,454	2.0666
05 Aug 2011 17:44:17	1155695	13126932	hadcm3n_ym4g_1900_40_007361530_1	725,760	1,505,371	2.0742
04 Aug 2011 08:30:37	1155695	13126932	hadcm3n_ym4g_1900_40_007361530_1	699,840	1,458,275	2.0837
03 Aug 2011 18:23:21	1155695	13126932	hadcm3n_ym4g_1900_40_007361530_1	673,920	1,412,210	2.0955
03 Aug 2011 05:53:00	1155695	13126932	hadcm3n_ym4g_1900_40_007361530_1	648,000	1,368,178	2.1114
02 Aug 2011 15:04:04	1155695	13126932	hadcm3n_ym4g_1900_40_007361530_1	622,080	1,324,543	2.1292
01 Aug 2011 11:19:16	1155695	13126932	hadcm3n_ym4g_1900_40_007361530_1	596,160	1,285,835	2.1569
31 Jul 2011 23:38:30	1155695	13126932	hadcm3n_ym4g_1900_40_007361530_1	570,240	1,246,248	2.1855
31 Jul 2011 12:22:38	1155695	13126932	hadcm3n_ym4g_1900_40_007361530_1	544,320	1,203,842	2.2116
30 Jul 2011 23:47:51	1155695	13126932	hadcm3n_ym4g_1900_40_007361530_1	518,400	1,159,818	2.2373
30 Jul 2011 19:11:48	1155695	13126932	hadcm3n_ym4g_1900_40_007361530_1	492,480	1,115,425	2.2649
29 Jul 2011 19:31:27	1155695	13126932	hadcm3n_ym4g_1900_40_007361530_1	466,560	1,066,288	2.2854