ベンチマークのお部屋

2014.7.30 更新

新版中野サブルーチンが出来たのでテスト。
N="2048", M="1800"のテスト用データを用いた。
CUDA版のデータを追加。
実行時間(SEC)時定数(ns) CPU or GPU周波数(GHz)OSコンパイラ備考
0.230.030465GTX 780 Ti0.928Windows7 proCUDA toolkit 6.0cbp_cuda.c, Kepler
0.310.041061Tesla C20751.15Scientific Linux 6.5CUDA toolkit 6.0cbp_cuda.c, Fermi GPU GF110
0.330.043710GTX 6901.02Windows7 proCUDA toolkit 6.0cbp_cuda.c, Kepler
0.330.043710GTX 660Ti0.928Windows7 proCUDA SDK 4.2cbp_cuda.c, Kepler
0.340.045035GTX 750Ti1.02Scientific Linux 6.5CUDA toolkit 6.0cbp_cuda.c, Maxwell
0.420.055631GTX 560Ti1.65Windows7 proCUDA toolkit 6.0cbp_cuda.c, Maxwell
0.460.060929GTX 750Ti1.02Windows7 proCUDA toolkit 6.0cbp_cuda.c, Maxwell
0.630.083447Tesla C10601.296CentOS 5.3CUDA SDK 2.3cbp_cuda.c, 240threads
0.890.117885Xeon E5-2690 Dual2.9CentOS 6.2Intel C 12.1cbp_thread_int.c, 16threads
1.490.197358Xeon E5-2690 Dual2.9CentOS 6.2Intel C 12.1cbp_thread.c, 16threads
2.230.295374Corei7-3930K3.2Windows7 64bitIntel C 11.2cbp_thread_int.c, 16threads
4.040.535117Corei7-3930K3.2Windows7 64bitIntel C 11.2cbp_thread.c, 16threads
4.50.596046Tesla C8701.35CentOS 4.7CUDA SDK 2.02cbp_cuda.c, 128threads
5.70.754992Xeon(E5420)2.5CentOS 4.7gcc 3.4.6cbp_thread_int.c, 4threads
8.21.086129Core2Quad(Q9550)2.83Fedora 10Intel C 11.0.074cbp_thread_int.c, 4threads
9.31.231829Core2Quad(Q6600)2.4Windows XPIntel C 10.1.013cbp_thread_int.c, 4threads
10.81.430511Xeon(E5420)2.5CentOS 4.7gcc 3.4.6cbp_thread.c, 4threads
13.51.788139Core2Quad(Q9550)2.83Fedora 10Intel C 11.0.074cbp_thread.c, 2threads
15.42.039803Core2Duo(E6700)2.66Windows XPIntel C 10.1.013cbp_thread_int.c, 4threads
16.82.225240Core2Quad(Q6700)2.4Windows XPIntel C 10.1.013cbp_thread.c, 2threads
21.22.808041Core2Duo(E6700)2.66Windows XPIntel C 10.0.25cbp_int.c 使用
22.93.033214Core2Duo(E6700)2.66Windows XPIntel C 10.1.013cbp_thread.c, 2threads
22.42.966987Opteron1852.8Windows XPIntel C 10.0.25cbp_int.c 使用
24.33.218651Xeon(5030)2.66MacOSX 10.4.10Intel C 9.12GB mem
24.53.245142Core2Duo(E6700)2.66Windows VistaIntel C 9.12GB mem
24.83.284878Core2Duo(E6700)2.66Windows XPIntel C 9.12GB mem
26.43.496806Core2Duo(E6420)2.13CentOS 5.0Intel C 10.0.233GB mem
27.83.682242Core2Duo(E6420)2.13Windows XP_64Intel C 9.13GB mem
28.13.721979Core2Duo(E6420)2.13Windows VistaIntel C 9.13GB mem
29.53.907416Core2Duo(E6700)2.66Windows VistaIntel C 9.11GB mem
31.64.185571Itanium 21.6RHEL2Intel C 9.14GB mem
86.211.417601Pentium 43.2Windows XPIntel C 9.1old ver., 2GB mem
88.111.669265Opteron2502.4SuSE 9.1gccold ver.

2006.3.16 更新

Fortran の場合

手元のマシンでct_fbpをコンパイルして計算した時間を書いておきます。
オプション等により、計算時間の短縮があるかもしれません。
いいオプションがあったら教えてください。


計算はダミーデータ(2.5MB lzh compress)を使いました。
上のダミーデータにはs0100.sin と sino.tmp が入っています。
横 1000 pixel 投影数 360 のシノグラムです。

実行時間(SEC)時定数(ns) CPU周波数(MHz)OSコンパイラオプション
925.000000alpha833SuSE 7.1Compaq Fortran V1.0-920-O3 -fast
1130.555556alpha700SuSE 6.3Compaq Fortran V1.0-920-O3 -fast
1233.333333pentium 41700RedHat 7.1Intel fortran 6.0-vms -O3 -tpp7 -autodouble -xW
2261.111111Athlon1900+win 2kCompaq 6.6/compile_only /debug:none /math_library:fast /nologo /optimize:3 /warn:nofileopt
3288.888889pentium 41700RedHat 7.1Intel fortran 5.0.1-vms -O0 -tpp7 -autodouble -ml
3391.666667pentium 42000win 2kCompaq 6.6/compile_only /debug:none /math_library:fast /nologo /optimize:3 /warn:nofileopt
45125.000000pentium 41500win 2kCompaq 6.6/compile_only /debug:none /math_library:fast /nologo /optimize:3 /warn:nofileopt
51141.666667Athlon900win NT 4Compaq 6.6/compile_only /debug:none /math_library:fast /nologo /optimize:3 /warn:nofileopt

C の場合

Cで書いたプログラムで再構成(CBP法)をしてみると、またまた怪しげな結果が・・・

Convolution(SEC)Backprojection(SEC)CPU周波数(MHz)OSコンパイラオプション
0.201.8Itanium21600RedHat AS 2Intel C++ 9.0-O3 -lm -static
0.623.5pentium 43200Win XPIntel C++ 8.0-O3
0.955.4pentium 41700RedHat 7.1Intel C++ 7.0-O3 -unroll -xW -tpp7 -lm -static
1.166.8pentium 41700RedHat 7.1Intel C++ 5.0.1-lm -O3 -tpp7
1.166.8pentium 41700RedHat 7.1Intel C++ 6.0-lm -O3 -tpp7
1.127.1pentium 42000win 2kIntel C++ 7.1-O3
6.2532.7pentium 42000win 2kBorland C++ 5.5.1-O
1.08.9alpha700SuSE 6.3Compaq Fortran V1.0-920-O4 -fast
0.911.7Athlon1900+win 2kVisual C++ 6.0Maximize speed, nodebug
1.1620.0pentium 41700RedHat 7.1gcc version 2.96-lm -O

bl20 ホームページへ

質問などは、こちらからどうぞ。